检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
备份ClickHouse业务数据 操作场景 为了确保ClickHouse日常用户的业务数据安全,或者集群用户需要对ClickHouse进行重大操作(如升级或迁移等),需要对ClickHouse数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。
ALM-14018 NameNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Na
查看MRS集群组件运行状态 MRS集群创建后,用户可在MRS管理控制台或者集群Manager界面查看集群内各服务组件以及组件角色实例的运行状态,以判断组件是否运行正常。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-27007 数据库进入只读模式 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,当数据目录磁盘空间使用率超过90%时,系统将产生此告警。 当数据目录磁盘空间使用率低于80%时,此告警恢复。 告警属性 告警ID 告警级别 是否自动清除 27007
ALM-24000 Flume服务不可用(2.x及以前版本) 告警解释 告警模块按180秒周期检测Flume服务状态,当检测到Flume服务异常时,系统产生此告警。 当系统检测到Flume服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24000
创建FlinkServer作业写入数据至Doris表 本章节适用于MRS 3.5.0及之后的版本。 操作场景 本章节提供了如何使用FlinkServer将Kafka数据写入到Doris中,和Doris数据和Kafka数据的Lookup Join操作指导。 前提条件 集群中已安装D
ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Kafka服务堆内存使用状态,当检测到Kafka实例堆内存使用率超出阈值(最大内存的80%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-50232 Doris中存在较大的Tablet 告警解释 告警模块按5分钟周期检查Doris集群中是否存在大于3GB(可通过“alarm_tablet_max_size”参数修改该值)的Tablet,如果存在则产生此告警。 当检测到Doris集群中不存在大于3GB的Tablet时,告警恢复。
ALM-26051 Storm服务不可用(2.x及以前版本) 告警解释 系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus实例所在节点异常时,Storm服务不可用,系统产生此告警。 当Storm服务恢复正常,告警自动清除。 告警属性 告警ID 告警级别 可自动清除
ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本) 告警解释 上个10min的周期内,发生被终止的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务被终止的数量大于设定的阈值时,会发生该告警。如果在下个10m
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
ALM-12002 HA资源异常(2.x及以前版本) 告警解释 HA软件周期性检测Manager的WebService浮动IP地址和Manager的数据库。当HA软件检测到浮动IP地址或数据库异常时,产生该告警。 当HA检测到浮动IP地址或数据库正常后,告警恢复。 告警属性 告警ID
ALM-19008 HBase服务进程堆内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务堆内存使用状态,当检测到HBase服务堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 19008 重要 是 告警参数 参数名称
ALM-12180 磁盘卡IO 告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到6秒。 系统默认每3秒采
ALM-44004 Presto Coordinator资源组排队任务超过阈值 告警解释 系统通过jmx接口查询资源组的排队任务数即QueuedQueries指标,当检测到资源组排队数大于阈值时产生该告警。用户可通过"组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”)
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
ALM-12005 OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测损坏的块数量,并把损坏的块数量和阈值相比较。损坏的块数量指标默认提供一个阈值范围。当检测到损坏的块数量超出阈值范围时产生该告警。 当损坏的块数量小于或等于阈值时,告警恢复。建议使用命令(hdfs
ALM-14000 HDFS服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测NameService的服务状态,当检测到所有的NameService服务都异常时,就会认为HDFS服务不可用,此时产生该告警。 至少一个NameService服务正常后,系统认为HDFS服务恢复,告警清除。