检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
同步磁盘信息用于检查集群云磁盘最新信息并进行更新,使控制台展示的云硬盘信息与实际最新云硬盘信息保持一致。 同步MRS集群节点磁盘约束条件 同步磁盘信息功能仅支持同步云硬盘信息,不支持同步本地盘信息。 正在进行磁盘信息同步的集群不支持扩容、缩容、升级规格等操作。
配置DataNode预留磁盘百分比 配置场景 当Yarn本地目录和DataNode目录配置在同一个磁盘时,具有较大容量的磁盘可以运行更多的任务,因此将有更多的中间数据存储在Yarn本地目录。
增加了磁盘个数,如原先4个数据盘,现扩容为5个数据盘。 原因分析 DataNode节点内写block磁盘时,有两种策略“轮询”和“优先写剩余磁盘空间多的磁盘”,默认是“轮询”。
Kafka集群节点内多磁盘数据量占用高 用户问题 Kafka流式集群节点内有多块磁盘的使用量很高。当达到100%时就会造成kafka不可用如何处理? 问题现象 客户购买的MRS Kafka流式集群节点内有多块磁盘,由于分区不合理及业务原因导致某几个磁盘的使用量很高。
约束限制: 不涉及 取值范围: User:表示该映射关系为针对用户的映射,identifiers中填写用户名称列表。 Group:表示该映射关系为针对用户组的映射,identifiers中填写用户组名称列表。
告警属性 告警ID 告警级别 是否自动清除 45428 重要(默认级别) 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 ClickHouse读写数据异常,本地表的INSERT
可能原因 磁盘老化。 处理步骤 更换磁盘。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看该告警的详细信息,查看定位信息中对应的“主机名”字段和“磁盘名”字段的值,获取该告警上报的故障磁盘信息。 更换硬盘。 检查告警是否清除。
扩容ClickHouse节点磁盘 随着业务量的增长,ClickHouse节点数据盘的磁盘容量已不能满足业务需求,需要扩容数据盘磁盘容量。 如果购买MRS集群的计费模式为按需计费,扩容磁盘容量后MRS集群不支持转包周期。 前提条件 ClickHouse集群和实例状态正常。
ALM-14027 DataNode磁盘故障 告警解释 系统每60秒周期性检测DataNode节点上的磁盘状况,当检测到有磁盘出现故障时产生该告警。 当DataNode上故障磁盘都恢复正常后,手动清除该告警,并重启该DataNode。
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。
ALM-45003 HetuEngine QAS磁盘容量不足 本章节适用于MRS 3.3.0及以后版本。 告警解释 系统按60秒周期检测HetuEngine QAS磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。
ALM-12187 磁盘分区扩容失败 告警解释 系统按60秒周期进行扫描,当检测到磁盘空间扩容后,会进行磁盘分区空间扩容操作,如果磁盘分区扩容失败,则触发此告警。 系统如果检测到磁盘空间扩容后,磁盘分区扩容成功,则告警恢复。
在Hive中drop表后如何完全释放磁盘空间 用户问题 在Hive命令行执行drop表的操作后,通过命令hdfs dfsadmin -report查看磁盘空间,发现表没有删除。
Spark On Hudi性能调优 优化Spark Shuffle参数提升Hudi写入效率 开启spark.shuffle.readHostLocalDisk=true,本地磁盘读取shuffle数据,减少网络传输的开销。
磁盘名 产生告警的磁盘名称。 对系统的影响 业务失败:磁盘不可写或不可读时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘挂载目录权限异常或磁盘坏道。 处理步骤 检查磁盘挂载目录权限是否正常。
ALM-38001 Kafka磁盘容量不足 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。
ALM-12204 磁盘IO读取等待时长超过阈值 告警解释 系统每30秒周期性检测磁盘IO读取等待时长,并把实际磁盘IO读取等待时长和阈值相比较。当检测到磁盘IO读取等待时长连续多次超出阈值范围(默认值为10秒)时产生该告警。 当磁盘IO读取等待时长小于或等于阈值时,告警恢复。
对系统的影响 diskmgt磁盘监控服务不可用时,影响系统对磁盘信息和分区信息的监控,如设备分区文件系统只读检测、设备分区丢失检测、磁盘分区扩容检测等。 可能原因 diskmgt磁盘监控服务不存在。 diskmgt磁盘监控服务未启动。
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 磁盘 > 磁盘inode使用率”修改阈值。 平滑次数为1,磁盘Inode使用率小于或等于阈值时,告警恢复;平滑次数大于1,磁盘Inode使用率小于或等于阈值的90%时,告警恢复。
ALM-12205 磁盘IO写入等待时长超过阈值 告警解释 系统每30秒周期性检测磁盘IO写入等待时长,并把实际磁盘IO写入等待时长和阈值相比较。当检测到磁盘IO写入等待时长连续多次超出阈值范围(默认值为10s)时产生该告警。 当磁盘IO写入等待时长小于或等于阈值时,告警恢复。