检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 ClickHouse读写数据异常,本地表的INSERT、SELECT和CREATE操作概率异常,分布式表基本不受影响。 影响业务,会导致IO失败。 可能原因 磁盘老化或者磁盘坏道。 处理步骤
ALM-14023 总副本预留磁盘空间所占比率超过阈值 告警解释 系统每30秒周期性检测总副本预留磁盘空间所占比率(总副本预留磁盘空间/(总副本预留磁盘空间+总剩余的磁盘空间)),并把实际的总副本预留磁盘空间所占比率和阈值(默认为90%)相比较。当检测到总副本预留磁盘空间所占比率连续多次(平滑次数)高于阈值时,产生该告警。
查看是否由于某些Topic的Partition配置不合理导致部分磁盘使用率达到上限(例如:数据量非常大的Topic的Partition数目小于配置的磁盘个数,导致各磁盘上数据分配无法均匀,进而部分磁盘达到使用率上限)。 如果不清楚哪些Topic业务数据量较大,可以根据2中获取到的主机节点信息,
来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 磁盘路径 产生告警的磁盘路径 对系统的影响 磁盘使用率高可能导致ClickHouse写入执行失败。 可能原因 ClickHouseServer节点磁盘容量过小。 处理步骤
> 阈值设置 > 待操作集群的名称 > 主机 > 磁盘 > 磁盘IO利用率”。 根据实际服务的使用情况,单击“平滑次数”后的编辑按钮,更改告警的平滑次数。 该选项的含义为告警检查阶段,“平滑次数”为连续检查多少次超过阈值,则发送告警。 单击规则“操作”列的“修改”,根据实际情况更改告警阈值。
ALM-27006 数据目录磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。
上,在运行一段时间以后会出现Core节点的数据盘被占满的情况。 后台查看磁盘使用情况,主要是JDBCServer服务的APP临时文件(shuffle生成的文件)太多,并且没有进行清理占用了大量内存。 原因分析 查询Core节点有大量文件的目录,发现大部分都是类似“blockmgr
Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页面,重启ClickHouse实例,恢复磁盘状态。 此时磁盘未更换,有IO错误发生时,磁盘状态还会被置为fault或者abnormal。
Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页面,重启ClickHouse实例,恢复磁盘状态。 此时磁盘未更换,有IO错误发生时,磁盘状态还会被置为fault或者abnormal。
主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 如果IO持续飙高,会对业务操作产生影响,导致业务受损。 可能原因 磁盘老化。 处理步骤 更换磁盘。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看该告警的详细信息,查看
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDF
置较小的数值不能满足更大的磁盘要求。但对于更小的磁盘配置更大的数值将浪费大量的空间。 为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
readonly”,修改参数值为0,退出只读模式。 告警属性 告警ID 告警级别 是否可自动清除 45439 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 磁盘路径 产生告警的磁盘路径 对系统的影响 Cli
y.java:745) 若发生此异常,请为租户配置足够的磁盘空间配额。 例如: 需要的磁盘空间配置可以按照如下方法计算: 如果HDFS的副本数为3, HDFS默认的块大小为128MB,则最小需要384MB的磁盘空间用于写表的schema文件到HDFS上。计算公式:no. of block
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 PartitionName 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 文件系统无法正常写入。
置较小的数值不能满足更大的磁盘要求。但对于更小的磁盘配置更大的数值将浪费大量的空间。 为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。当检测到实际“NodeManager磁盘可用率”的值低于阈值范围时产生该告警。
volumes.tolerated”的值时,DataNode启动失败。 回答 默认情况下,单个磁盘的故障将会引起HDFS DataNode进程关闭,导致NameNode为每一个存在DataNode上的block调度额外的副本,在没有故障的磁盘中引起不必要的块复制。 为了防止此情况,用户
volumes.tolerated”的值时,DataNode启动失败。 回答 默认情况下,单个磁盘的故障将会引起HDFS DataNode进程关闭,导致NameNode为每一个存在DataNode上的block调度额外的副本,在没有故障的磁盘中引起不必要的块复制。 为了防止此情况,用户
云硬盘(系统盘和数据盘) 计费因子:云硬盘类型、容量。 购买云硬盘成功后,将立即开始计费,计费与其是否被使用无关。 包年/包月、按需计费 云硬盘的大小 * 云硬盘单价 * 购买数量 * 购买时长 云硬盘单价请参见云硬盘价格计算器。