检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 上层服务通过knox下发的请求无法正常处理响应。 可能原因 knox进程异常。 处理步骤 检查knox进程是否异常。 登录FusionInsight
可能原因 强制删除主机后,该主机又上电恢复,进程被重新启动。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看该告警的详细信息,在附加信息中查看发生该告警的主机IP。 停止上报告警的主机上的DataNode进程。 如果附加信息中
可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 若您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。 可用内存 除了分配给操作系统、其他服务的内存外,
ALM-16005 Hive服务进程堆内存使用超出阈值 ALM-16006 Hive服务进程直接内存使用超出阈值 ALM-16007 Hive GC 时间超出阈值 ALM-16008 Hive服务进程非堆内存使用超出阈值 ALM-16009 Map数超过阈值 ALM-16045 Hive数据仓库被删除
使用Flume搜集日志时,需要在日志主机上安装Flume客户端。用户可以创建一个新的ECS并安装Flume客户端。 本章节适用于MRS 3.x及之后版本。 前提条件 已创建包含Flume组件的集群。 日志主机需要与MRS集群在相同的VPC和子网。 已获取日志主机的登录方式。 安装目录可以不
产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机节点信息。 对系统的影响 sssd服务不可用时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 可能原因 sssd服务未启动或启动错误。 网络故障,无法访问Ldap服务器。
安装Flume客户端 使用Flume搜集日志时,需要在日志主机上安装Flume客户端。用户可以创建一个新的ECS并安装Flume客户端。 前提条件 已创建包含Flume组件的集群。 日志主机需要与MRS集群在相同的VPC和子网。 已获取日志主机的登录方式。 安装目录可以不存在,会自动创建。但
产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机节点信息。 对系统的影响 nscd服务不可用时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 可能原因 nscd服务未启动。 网络故障,无法访问Ldap服务器。
修改节点主机名后导致MRS集群状态异常 问题现象 修改节点主机名后,MRS集群状态异常。 原因分析 修改节点hostname导致兼容性问题和故障。 处理步骤 以root用户登录集群的任意节点。 在集群节点中执行cat /etc/hosts命令,查看各个节点的hostname值,根
对系统的影响 GC时间超出阈值,会影响JobHistory进程运行的性能,甚至造成JobHistory进程不可用。 可能原因 该节点JobHistory进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。
管理能力,目前支持内存和CPU优先级管理。多租户设计模型如下图所示: 通过FusionInsight Manager服务配置和租户管理页面的操作,用户可以实现设置服务内存限额、创建租户、关联ClickHouse服务、绑定逻辑集群、设置租户可用内存和CPU优先级、租户关联用户等操作
12010 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 如果主Manager进程资源异常,主备倒换无法进行,影响运维基本功能使用。 可能原因 主备Manager节点间链路异常。
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 IoTDBServer进程堆内存使用率过高,会导致IoTDBServer进程数据读写性能下降,甚至造成内存溢出导致IoTDBServer进程重启。 可能原因 该节点IoTDB进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。系统每天凌晨3点开始周期性检测转储服务器,如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ConfigNode进程堆内存使用率过高,会导致ConfigNode进程数据读写性能下降,甚至造成内存溢出导致ConfigNode进程重启。 可能原因 该节
ALM-14000 HDFS服务不可用 ALM-14010 NameService服务异常 ALM-14012 Journalnode数据不同步 ALM-16004 Hive服务不可用 ALM-18000 Yarn服务不可用 ALM-19000 HBase服务不可用 ALM-20002
系统每30秒周期性检查SlapdServer节点的进程连接数,并把实际进程连接数和阈值相比较,当进程连接数连续多次(默认值为5)超过设定阈值(默认值为1000)时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,进程连接数小于或等于阈值时,该告警恢复。当平滑次数大于1,进程连接数小于或等于阈值的90%时,该告警恢复。
产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟: 主机内存使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:主机内存使用率过高时,可能会导致业务进程内存溢出,可能会导致作业运行失败。
告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。 告警属性
对系统的影响 GC时间超出阈值,会影响JDBCServer进程运行的性能,甚至造成JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。