正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29015 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
ClickHouse进程运行异常。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。 以客户端安装用户,登录客户端的节点,执行如下命令: cd {客户端安装路径} source
非HDFS数据残留导致数据分布不均衡 HDFS客户端安装在数据节点导致数据分布不均衡 节点内DataNode磁盘使用率不均衡 执行balance常见问题定位方法 HDFS显示磁盘空间不足,其实还有10%磁盘空间 使用普通集群Core节点上安装的HDFS客户端时报错“error creating
否,执行2。 恢复组件状态至要求状态,再一次启动该恢复任务。 登录MRS Manager管理界面,选择“告警管理”。在告警列表中单击该告警所在行,从“定位信息”处获得任务名。 选择“系统设置 > 恢复管理”。根据“任务名”查找对应恢复任务,查看恢复任务的详细信息。 启动该恢复任务,查看恢复任务是否执行成功。
导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“43013”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制
Manager首页,选择“运维 > 告警 > 告警”,在告警列表中找到该告警。 单击该告警,查看下面的告警详情。从“定位信息”中的“主机名”信息可知发出该告警的NameNode节点主机名;从“定位信息”中的NameServiceName信息可知发出该告警的NameService名称。 查看阈值是否设置过低。
Manager页面上进行Impala SQL作业管理。 Spark2x 升级到3.1.1版本。 ZooKeeper 升级到3.6.3版本。 管理控制台 支持补丁在线推送及更新。 支持包周期集群中的部分节点退订。 作业提交API新增支持FlinkSQL作业类型。 支持指定资源池的弹性伸缩能力。 Mast
SDK概述 本文介绍了MRS服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。
检查是否有"Sssd服务异常"告警。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Kafka默认用户状态异常 > 定位信息”。查看告警上报的实例的主机名。 根据告警提示的主机信息,登录到该节点上。 执行id -Gn kafka,查看返回结果是否报"No such
在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击“Procedure执行失败”告警前面的。 查看“定位信息”中“Porcedure信息”的值, 该值以Procedure类型开头,包括Procedure相关的主要信息。 查看副本补齐任务运行是否失败。
ClickHouse节点磁盘使用率超过90%,节点进入只读模式。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。 扩容告警上报节点的磁盘容量。 扩容失败,或扩容后告警仍然没有消除,执行4。 扩容后仅当profiles
检查堆内存使用量。 登录MRS集群详情页面,选择“告警管理”。 单击“ALM-26054 Storm Nimbus堆内存使用率超过阈值 > 定位信息”,查看告警上报的实例的HostName。 单击“组件管理 > Storm > 实例 > Nimbus(对应上报告警实例HostName)
WAL文件内容损坏。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19026”的告警的“定位信息”中上报该告警的服务名。 以客户端安装用户登录安装了HDFS客户端的节点,并执行以下命令: cd 客户端安装目录 source bigdata_env
在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45428 ClickHouse磁盘IO异常告警”,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 使用PuTTY工具,以root用户登录故障所在节点。 执行命令df -h查看挂载目录,找到故障告警目录挂载的磁盘。
权限的用户登录FusionInsight Manager。 选择“运维 > 告警 > 告警”,单击“告警ID”为“45616”所在行的,在定位信息中查看发生该告警的任务名称。 选择“集群 > 服务 > CDL”,单击“CDLService UI”后的链接进入CDL WebUI界面。
ager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn页面。 根据告警“定位信息”中的任务名找到失败任务,查找并记录失败作业的“application ID”,是否可以在Yarn页面上查看到作业日志。 图1 作业的“application
RegionServer的Region分布不均衡。 HBase集群规模过小。 处理步骤 查看告警定位信息 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19011”的告警,查看“定位信息”中产生该告警的服务实例和主机名。 在FusionInsight
使用量超过阈值。 处理步骤 检查堆内存使用率。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“18008”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Yarn > 实例 > ResourceManager(对应上报告警实例IP地址)
当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29008 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 附加信息 Trigger
检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据读操作接口调用成功率低于阈值”,查看“定位信息”中的角色名并确定实例的IP地址。 选择“集群 > 待操作集群的名称 > 服务 > meta > 实例 > meta(对应上报告警实例