检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45638 FlinkServer作业失败重启次数超阈值 适用于MRS 3.1.2及至3.2.0之间版本。 告警解释 系统以用户配置的告警周期检查FlinkServer作业重启次数,如果重启次数超过用户配置的阈值,则发送告警。当作业重启成功,则告警恢复。 告警属性 告警ID
Superior调度器模式下管理MRS全局用户策略 操作场景 如果租户配置使用Superior调度器,那么系统可以控制具体用户使用资源调度器的行为,包含: 最大运行任务数 最大挂起任务数 默认队列 操作步骤 添加策略 在FusionInsight Manager,单击“租户资源”。
ALM-12004 OLdap资源异常(2.x及以前版本) 告警解释 当Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12004 严重 是 告警参数 参数名称 参数含义
产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Yarn ResourceManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager进程的垃圾回收时间过长,可能影响该NodeManager进程正常提供服务。 可能原因
ALM-19011 RegionServer的Region数量超出阈值 告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionSe
ner时,分配的内存会根据任务总数的浮动自动调整,资源利用更加灵活,提高了客户端应用运行的容错性。 配置描述 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,选择“全部配置”,在搜索框中输入参数名称“mapreduce.job
test:为准备集群认证用户信息创建的用户名称,例如developuser。 系统域名:登录FusionInsight Manager后,选择“系统 > 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 父主题: 准备MapReduce应用开发环境
API 提供HDFS文件系统的应用接口,本开发指南主要介绍如何使用Java API进行HDFS文件系统的应用开发。 C API 提供HDFS文件系统的应用接口,使用C语言开发的用户可参考C接口的描述进行应用开发。 Shell 提供shell命令完成HDFS文件系统的基本操作。 HTTP
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。
00个用户组(包括系统内置用户组)。 MRS 2.x及之前版本,Manager最大支持100个用户组(包括系统内置用户组)。 前提条件 管理员已明确业务需求,并已创建业务场景需要的角色。 已登录Manager。 添加用户组 MRS 3.x及之后版本: 选择“系统 > 权限 > 用户组”。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。 可能原因
Manager首页,单击“系统设置 > 日志导出 ”。 在“服务”中勾选Presto节点信息。 单击右上角的 设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“确定”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
ALM-45638 Flink作业失败重启次数超阈值 本章节仅适用于MRS 3.2.0及以后版本。 告警解释 系统以用户配置的告警周期检查Flink作业重启次数,如果重启次数超过用户配置的阈值,则发送告警。当作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45638
Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID 告警级别
Flume读取数据异常(2.x及以前版本) 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统发送告警。 用户可通过配置修改阈值。 当Source读取到数据,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24004
使用Token认证机制时对Token的操作。 本章节内容适用于MRS 3.x及后续版本的启用Kerberos认证的集群。 前提条件 MRS集群管理员已明确业务需求,并准备一个系统用户。 已开启Token认证机制,详细操作请参考Kafka服务端配置。 已安装Kafka客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。
运行如下命令删除表。 命令: DROP TABLE [IF EXISTS] [db_name.]table_name; 一旦执行该命令,将会从系统中删除表。命令中的“db_name”为可选参数。如果没有指定“db_name”,那么将会删除当前数据库下名为“table_name”的表。
Streaming应用与Kafka对接,Spark Streaming应用异常终止并从checkpoint恢复重启后,对于进入Kafka数据的任务,系统默认优先处理应用终止前(A段时间)未完成的任务和应用终止到重启完成这段时间内(B段时间)进入Kafka数据生成的任务,最后再处理应用重启完