检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Loader日志介绍 日志描述 日志存储路径:Loader相关日志的默认存储路径为“/var/log/Bigdata/loader/日志分类”。 runlog:“/var/log/Bigdata/loader/runlog”(运行日志) scriptlog:“/var/log/Bigdata
ClickHouse日志介绍 日志描述(MRS 3.2.0及之后版本) 日志路径:ClickHouse相关日志的默认存储路径为“${BIGDATA_LOG_HOME}/clickhouse”。 ClickHouse运行相关日志:“/var/log/Bigdata/clickhouse
使用HDFS快照快速恢复组件业务数据 操作场景 使用DistCp备份数据时,本集群HDFS中将保存备份数据的快照信息。FusionInsight Manager支持使用本地的快照快速恢复数据,减少从备集群恢复数据使用的时间。 管理员可以通过FusionInsight Manager
配置MRS集群审计日志本地备份数 集群组件的审计日志按名称分类,保存在集群各节点“/var/log/Bigdata/audit”,OMS每天凌晨3点自动备份这些审计日志目录。 各节点审计日志目录会按<节点IP>.tar.gz的文件名压缩,所有压缩文件再按<yyyy-MM-dd_HH-mm-ss
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致
ALM-20002 Hue服务不可用 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 20002 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名
ALM-24004 Flume读取数据异常 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统即时上报告警。 默认阈值为0,表示不开启。用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应
ALM-24005 Flume传输数据异常 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties.properties
ALM-26051 Storm服务不可用 告警解释 系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus节点异常时,Storm服务不可用,系统产生此告警。 当Storm服务恢复正常,告警自动清除。 告警属性 告警ID 告警级别 是否自动清除 26051 紧急 是
ALM-29000 Impala服务不可用 告警解释 以30s为周期检测Impala服务状态,当检测到Impala服务异常时,系统产生此告警。 当系统检测到Impala服务恢复正常,或告警处理完成时,告警解除。 告警属性 告警ID 告警级别 是否可自动清除 29000 紧急 是 告警参数
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
ALM-38017 分区均衡时间超过阈值 告警解释 系统每10分钟(可以通过修改Kafka配置项“auto.reassign.check.interval.ms”调整)周期性检测,扩容新的Broker后触发的分区均衡时间超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment.total.time.threshold
ALM-45652 Flink服务不可用 本章节适用于MRS 3.3.0及以后版本。 告警解释 告警模块按60秒周期检测Flink服务状态。当检测到Flink服务不可用时产生该告警。Flink服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45652 紧急 是
ALM-45736 Guardian服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 告警模块按60秒周期检测Guardian服务状态,当检测到Guardian服务异常时,系统产生此告警。 当系统检测到Guardian服务恢复正常,且告警处理完成时,告警恢复。 告警属性
ALM-45742 请求ECS metadata接口失败 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 当Guardian调用IAM接口获取临时aksk时,需要先从ECS metadata接口获取相关元数据信息,如果调用该接口失败,则产生该告警。 告警属性 告警ID 告警级别
ALM-45428 ClickHouse磁盘IO异常 告警解释 告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。 告警属性 告警ID 告警级别 是否自动清除 45428 重要(默认级别) 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称
ALM-45451 ClickHouse访问OBS失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔1分钟检测一次当前访问OBS的状态,当连续3次检测到访问OBS失败时,系统产生告警。 当检测到系统访问OBS成功时,告警自动消除。 告警属性
ALM-50402 JobGateway服务不可用 告警解释 系统按60秒周期性检测组件JobGateway的服务状态。当检测到组件JobGateway服务异常时产生该告警。 当检测到组件JobGateway服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50402
ALM-45616 CDL任务执行异常 告警解释 系统每60秒为周期检查CDL任务是否异常,如果异常则产生该告警。任务正常运行或者停止后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45616 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名