检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
> 阈值配置 > 设备 > 主机 > 磁盘 > 磁盘inode使用率 > 磁盘inode使用率”修改阈值。 平滑次数为1,磁盘Inode使用率小于或等于阈值时,告警恢复;平滑次数大于1,磁盘Inode使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 如果IO持续飙高,会对业务操作产生影响,导致业务受损。 可能原因 磁盘老化。 处理步骤 更换磁盘。 在FusionInsight Manager界面,选择“运维 > 告警
dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败 问题 当“dfs.datanode.data.dir”中定义的磁盘数量等于“dfs.datanode.failed
dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败 问题 当“dfs.datanode.data.dir”中定义的磁盘数量等于“dfs.datanode.failed
NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。当检测到实际“NodeManager磁盘可用率”的值低于阈值范围时产生该告警。
reserved.percentage”修改百分比来控制具体的磁盘占比。 当HDFS磁盘使用100%之后,可通过降低“dfs.datanode.du.reserved.percentage”百分比来恢复业务,再进行磁盘扩容。 处理步骤 登录集群任意Master节点。 执行source /
参数说明 操作类型 记录执行的操作类型,包括: 集群操作 作业操作 数据操作 操作IP 记录执行操作的IP地址。 说明: 当MRS集群部署失败时,集群会被自动删除,并且自动删除集群的操作日志中不包含用户的“操作IP”信息。 用户 执行操作的用户。 操作内容 记录实际操作内容,不超过2048字符。
DataNode容量不足,会影响到HDFS的数据写入。 可能原因 集群磁盘容量已满。 DataNode节点间数据倾斜。 处理步骤 检查集群磁盘容量是否已满。 登录MRS集群详情页面,在“告警管理”页面查看是否存在“ALM-14001 HDFS磁盘空间使用率超过阈值”告警。 是,执行1.b。 否,执行2
多路读取线程池的大小,设置参数值大于0时启用多路读功能。 200 大于等于0 由于HDFS多路读功能在磁盘IO负载高的情况下可能导致性能劣化,在此场景下,HBase侧需要参考操作步骤关闭HDFS多路读功能。 操作步骤 登录FusionInsight Manager页面。 选择“集群 > 服务 > HBase>
ClickHouse数据表分区过多调优 问题排查步骤 磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。
数据表报错Too many parts解决方法 问题排查步骤 磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。
MRS集群Core节点扩容成功后部分实例启动失败 问题现象 Core节点扩容可能存在扩容节点完成,但节点上存在启动失败的实例的情况,现象如下: Core节点已经扩容完成,节点管理页面可以看到新扩容的节点: 任务管理中有添加节点的任务失败或部分成功: 若IAM用户已同步,可在组件管理观察到存在未启动角色。
配置DataNode节点容量不一致时的副本放置策略 操作场景 默认情况下,NameNode会随机选择DataNode节点写文件。当集群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置
配置DataNode节点容量不一致时的副本放置策略 操作场景 默认情况下,NameNode会随机选择DataNode节点写文件。当集群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置
数据库进入只读模式,上层服务写业务操作相关数据丢失。 可能原因 磁盘配置无法满足业务需求,磁盘使用率达到上限。 处理步骤 检查磁盘使用率是否达到上限 在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService”。 在“概览”页面查看“数据目录磁盘空间使用
产生告警的角色名称 主机名 产生告警的主机名 磁盘路径 产生告警的磁盘路径 对系统的影响 ClickHouseServer节点进入只读模式后所有写入、修改、删除操作均执行失败。 可能原因 ClickHouse节点磁盘使用率超过90%,节点进入只读模式。 处理步骤 登录FusionInsight
-d -x命令查看每个磁盘的最后一个指标“%util”: 各个磁盘的“%util”指标都超出阈值(默认值为80%),则考虑对Kafka磁盘进行扩容,扩容后,参考3,对Topic的Partition重新规划。 各个磁盘的“%util”指标差别较大,查看Kafka的磁盘分区配置信息。例如:
导出指定周期内产生的告警并分析。 扫描磁盘 对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 统计存储 分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 记录变更 安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。 每月
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 已创建的用户在本节点无操作权限。 可能原因 扩容过程中已有节点停止或故障。 处理步骤 在FusionInsight Manager首页,选择“集群 > 服务 > ClickHouse > 实例”。
MRS集群Core节点扩容成功后状态异常如何处理 问题现象 Core节点扩容可能存在扩容节点完成,但节点上存在启动失败的实例的情况,现象如下: Core节点已经扩容完成,节点管理页面可以看到新扩容的节点: 任务管理中有添加节点的任务失败或部分成功: 若IAM用户已同步,可在组件管理观察到存在未启动角色。