检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
JDBCServer进程堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 登录MRS集群详情页面,选择“告警管理”。
JDBCServer进程非堆内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率。 登录MRS集群详情页面,选择“告警管理”。
ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置
jar”。 Flink作业执行程序需要以“.jar”结尾。 - 运行程序参数 可选参数,为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 Flink作业常用运行程序参数如表2所示,可根据执行程序及集群资源情况进行配置。 -
如何调整MRS集群manager-executor进程内存? 问题现象 MRS服务在集群的Master1和Master2节点上部署了manager-executor进程,该进程主要用于将管控面对集群的操作进行封装,比如作业的提交、心跳上报、部分告警信息上报、集群创扩缩等操作。当客
ALM-45281 UserSync堆内存使用率超过阈值 告警解释 系统每60秒周期性检测UserSync服务堆内存使用状态,当连续10次检测到UserSync实例堆内存使用率超出阈值(最大内存的95%)时产生该告警,堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
出现此告警时,说明当前Doris实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上查看“Doris堆内存资源状况”监控图表,观察该监控图表中“Doris使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆内存使用量的两倍(或根据实际情况进行调整)。
请准备新的NTP服务器并获取IP地址,并设置好集群与新NTP服务器的网络。 请确保服务器的NTP服务状态正常,否则将导致本章节操作失败。 修改MRS集群NTP服务器对系统的影响 更换NTP服务器是高危操作,更换后集群时间可能将会变化。 更换NTP服务器前NTP服务器与集群当前时间偏差大于150s,则需先停止集群,防止数据丢失。停止集群期间服务无法访问。
检查是否能从NTP服务器获取时间。 继续查看告警附加信息,是否提示不能从NTP服务器获取时间。 是,执行9。 否,执行10。 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。 是,处理完毕。 否,执行10。 检查从NTP服务器获取的时间是否持续未更新。
JDBCServer进程直接内存使用率过高,会影响JDBCServer进程运行的性能,甚至造成内存溢出导致JDBCServer进程不可用。 可能原因 该节点JDBCServer进程直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 登录MRS集群详情页面,选择“告警管理”。
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
ALM-45283 UserSync非堆内存使用率超过阈值 告警解释 系统每60秒周期性检测UserSync服务非堆内存使用状态,当连续5次检测到UserSync实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-45287 TagSync非堆内存使用率超过阈值 告警解释 系统每60秒周期性检测TagSync服务非堆内存使用状态,当连续5次检测到TagSync实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
配置Spark Executor堆内存参数 配置场景 当分配的内存太小或者被更高优先级的进程抢占资源时,会出现物理内存超限的情况。调整如下参数,可以防止物理内存超限。 配置描述 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults
配置Spark Executor堆内存参数 配置场景 当分配的内存太小或者被更高优先级的进程抢占资源时,会出现物理内存超限的情况。调整如下参数,可以防止物理内存超限。 配置描述 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults
ALM-14017 NameNode直接内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS服务直接内存使用状态,当检测到NameNode实例直接内存使用率超出阈值(最大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,导致上游业务(例如HDFS、Yarn等)运行失败。 可能原因 该节点ZooKeeper实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight
影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查FE堆内存使用率。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Doris > CPU和内存 > FE节点使用的内存比率 (FE)”。 单击“平滑次数”
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Hive直接内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 可能原因 该节点Hive实例直接内存使用量过大,或分配的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight
ALM-29104 Tserver进程内存占用率超过阈值 告警解释 系统每60秒周期性检测Kudu Tserver进程内存占用率,当检测到Tserver进程占用率超过阈值,此时产生该告警。 Tserver进程内存占用率恢正常后,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID