检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12187 磁盘分区扩容失败 告警解释 系统按60秒周期进行扫描,当检测到磁盘空间扩容后,会进行磁盘分区空间扩容操作,如果磁盘分区扩容失败,则触发此告警。 系统如果检测到磁盘空间扩容后,磁盘分区扩容成功,则告警恢复。
原因分析 当前NodeManager和DataNode共数据盘使用,MRS默认预留15%的数据磁盘空间给非HDFS使用,可通过HDFS参数“dfs.datanode.du.reserved.percentage”修改百分比来控制具体的磁盘占比。
原因分析 集群在周期性的备份中,由于备份产生了软连接,将/srv/BigData/LocalBackup连接到了/opt/Bigdata/LocalBackup,会使用到根目录磁盘空间,因为根目录磁盘空间不足,导致无法写入备份文件,导致集群周期备份失败。
“/srv/BigData/dbdata_om”所在的分区磁盘空间被占满。 处理步骤 使用admin用户登录到FusionInsight Manager用户管理界面,检查当前报错用户的权限。 用户至少具有Manager的以下权限之一才可以访问。
检查主备节点磁盘空间 分别登录OMS主备节点,查看磁盘使用信息。 执行 df -h / ,查看/目录的可用空间是否大于30G。 否,清理磁盘空间。 是,检查结束。
如果需要写入一个1 GB的文件,HDFS还是会预约一个块来写,这个块写完后再开启下一个块,文件写完后,实际占用1 GB磁盘,释放多余预约的空间。 该异常通常是因为业务写文件的并发量太高,预约写Block的磁盘空间不足,导致写文件失败。
对系统的影响 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 可能原因 Flume Sink故障,导致数据无法发送。
为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
ClickHouse增加磁盘容量 随着业务量的增长,ClickHouse节点数据盘的磁盘容量已不能满足业务需求,需要扩容数据盘磁盘容量。 如果购买MRS集群的计费模式为按需计费,扩容磁盘容量后MRS集群不支持转包周期。 本章节仅适用于MRS 3.1.0版本。 前提条件 ClickHouse
为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
告警解释 系统按60秒周期检测HetuEngine QAS磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。
ALM-38001 Kafka磁盘容量不足(2.x及以前版本) 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。
配置ClickHouse系统表的生命周期 操作场景 ClickHouse没有默认配置系统表的TTL,长期使用可能会占用大量磁盘空间。 本章节指导用户配置系统表的生命周期,仅保留近30天的数据,减少系统表的磁盘使用。 本章节仅适用于MRS 3.2.0之前版本。
ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。
原因分析 DataNode节点内写block磁盘时,有两种策略“轮询”和“优先写剩余磁盘空间多的磁盘”,默认是“轮询”。
根据待迁移分区当前的磁盘空间占用情况,评估迁移后,不会导致新迁移后的磁盘空间不足。 使用Kafka客户端迁移数据 以客户端安装用户,登录已安装Kafka客户端的节点。 执行以下命令,切换到Kafka客户端安装目录,例如“/opt/kafkaclient”。
根据待迁移分区当前的磁盘空间占用情况,评估迁移后,不会导致新迁移后的磁盘空间不足。 使用Kafka客户端迁移数据 以客户端安装用户,登录已安装Kafka客户端的节点。 执行以下命令,切换到Kafka客户端安装目录,例如“/opt/kafkaclient”。
执行以下命令查看该目录下哪些Topic的Partition目录占用的磁盘空间比较大。 du -h --max-depth=1 ./ 是,执行18。 否,执行19。
用户可通过增加仓库容量或释放部分已使用空间的方式降低仓库空间使用率。 告警属性 告警ID 告警级别 可自动清除 16001 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。
ALM-45617 CDL复制槽Slot积压数据量超过阈值 告警解释 PostgreSQL或Opengauss(适用于MRS 3.3.0及之后版本)积压过多的WAL日志,可能导致PostgreSQL或Opengauss磁盘空间耗尽。