正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
内容说明请参考表1,条目较多时,单击搜索框可根据关键字字段进行筛选。 表1 Audit信息 页签 内容描述 Access 当前MRS不支持在线查看组件资源的审计日志信息,可登录组件安装节点,进入“/var/log/Bigdata/audit”目录下查看各组件的审计日志。 Admin
RocksDB的Get P95耗时持续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application
RocksDB的Write P95耗时持续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application
ALM-45642 RocksDB持续触发写限流”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application
RocksDB的Level0层SST文件数持续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application
登录主集群FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 在告警列表中单击该告警,从完整的告警信息中的“定位信息”处获得“主机名”。 以omm用户进入主集群HBase客户端所在节点。 如果集群采用了安全版本,要进行安全认证,然后使用hbase用户进入hbase
当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29007 次要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
C时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29014 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29015 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
ClickHouse进程运行异常。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。 以客户端安装用户,登录客户端的节点,执行如下命令: cd {客户端安装路径} source
非HDFS数据残留导致数据分布不均衡 HDFS客户端安装在数据节点导致数据分布不均衡 节点内DataNode磁盘使用率不均衡 执行balance常见问题定位方法 HDFS显示磁盘空间不足,其实还有10%磁盘空间 使用普通集群Core节点上安装的HDFS客户端时报错“error creating
用率超过阈值。 处理步骤 检查直接内存使用率。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“43012”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制
导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“43013”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制
导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“44006”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Presto > 实例 > Worker(对应上报告警实例IP地址) > 定制 >
检查diskmgt磁盘监控服务是否存在。 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看该告警的详细信息,在定位信息中查看发生该告警的主机名称。单击主机名称,查看对应的IP地址。 使用root用户登录告警上报主机IP节点。 执行以下命令查看服务核心文件是否存在。
ebUI页面。 单击“Applications”下的“KILLED”,单击最上面的任务。查看“Diagnostics”对应的描述信息,根据定位的任务被终止的详情(例如:被某用户终止)处理相关问题。 图1 单击“KILLED” 等待3分钟,查看该告警是否消除。 是,处理完毕。 否,执行7。
当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否可自动清除 29004 次要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
C时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29013 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger
为Kudu实例服务恢复,告警清除。 告警属性 告警ID 告警级别 是否自动清除 29107 紧急 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件
导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“44005”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 单击“组件管理 > Presto > 实例 > Coordinator(对应上报告警实例IP地址)