检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2 OBS证书失效告警 原因分析 OBS系统生成的证书有有效期限制,到达有效期后,证书文件失效,因此产生告警。 处理步骤 查询MRS集群上的OBS证书信息。 使用root用户登录MR
是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir”配置项用于指定数据块在DataNode上的存储目录,在系统安装时需要指定根目录,并且可以指定多个根目录。 请谨慎修改该配置项,可以添加新的数据根目录。 禁止删除原有存储目录,否则会造成数据块丢失,导致文件无法正常读写。
修改MRS集群Manager路由表对系统的影响 禁用Manager创建的路由信息后,在设置新的路由信息之前,FusionInsight Manager页面无法登录,集群运行不受影响。 修改MRS集群Manager路由表前提条件 已获取待创建路由的相关信息。 禁用系统创建的路由信息步骤 以om
ALM-19035 RegionServer Call队列大小超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的Call队列大小,当检测到某个RegionServer上的Call队列大小连续10次超出阈值时产生该告警。 当RegionSe
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Broker进程的垃圾回收时间过长,可能影响该Broker进程正常提供服务。 可能原因 该节点Kafka实例
ALM-45009 HetuEngine计算实例任务失败率超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的任务失败率,当检测到HetuEngine计算实例的任务失败率大于等于50%时产生该告警。 HetuEngi
ALM-45333 Presto Worker3线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
为了确保Doris日常用户的业务数据安全,或者集群用户需要对Doris进行重大操作(如升级或迁移等)时,需要对Doris数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 集群用户可以通过FusionInsight Manager创建自动或手动任务备份Doris数据。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用连接数不足,当连接率超过100%时无法处理外部连接,导致上游组件(例如Yarn、Flink等)无法正常运行。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,导致上游业务(例如HDFS、Yarn等)运行失败。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS NameNode非堆内存使用率过高,会影响HDFS的数据读写性能。 可能原因 HDFS NameNode配置的非堆内存不足。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 发生连接数告警时,表示连接到HiveServer的session数过多,将会导致无法建立新的连接,导致新任务失败,甚至服务异常重启。
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点JobHistoryS
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 JobHistory2x进程直接内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点RangerAdmin实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。
在“源连接”选择已创建的OBS连接。 “目的连接”选择已创建的HDFS连接。 在“自”填写源连接参数。 在“桶名”填写业务数据所保存的OBS文件系统名称。 在“源目录或文件”填写业务数据在文件系统的具体位置。 如果是单个文件,需要填写包含文件名的完整路径。如果是目录,填写目录的完整路径 “文件格式”填写业务数据文件的类型。
1的指向是否有值,如果为not found请执行以下命令加载。 echo $LD_LIBRARY_PATH 查看系统库环境变量里是否加载了非系统的openssl相关的库。如果是,请修改为系统的openssl相关的库。 如果仍旧无法解决,请联系支持人员。 父主题: 集群管理类
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OMS主要进程内存使用率过高,会影响OMS主要进程运行的性能,甚至造成内存溢出导致OMS主要进程不可用,OMS任务执行变慢或失败。