检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看集群健康检查报告”,查看集群健康检查的报告。在健康检查的报告面板上单击“导出报告”导出健康检查报告,可查看检查项的完整信息。 下载健康检查报告: 选择“系统设置 > 维护 > 健康检查”。 在目标健康检查报告所在行,单击“下载”,下载报告文件。 配置健康检查报告保存数: 在不同
使用Hive加载HDFS数据并分析图书评分情况 应用场景 MRS离线处理集群,可对海量数据进行分析和处理,形成结果数据,供下一步数据应用使用。 离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过Hive/SparkSQL引擎或者MapReduce/Spark2x实现。
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 若不检测内存使用,Container会占用内存直到内存溢出;若检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 如果不检测内存使用,Container会占用内存直到内存溢出;如果检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
无业务情况下,RegionServer占用CPU高 问题背景 无业务情况下,RegionServer占用CPU较高。 原因分析 通过top命令获取RegionServer的进程使用CPU情况信息,查看CPU使用率高的进程号。 根据RegionServer的进程编号,获取该进程下线程使用CPU情况。
恢复失败后数据状态未知(2.x及以前版本) 告警解释 执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则发送恢复告警。 告警属性 告警ID 告警级别 可自动清除 12035 致命 是 告警参数 参数名称 参数含义
配置MRS集群对接SNMP网管平台上报告警 如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。 前提条件 对接服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的
开启MRS集群维护模式停止上报告警 FusionInsight Manager支持将集群、服务、主机或者OMS配置为维护模式,进入维护模式的对象将不再上报告警,避免在升级等维护变更期间系统产生大量无意义的告警,影响运维人员对集群状态的判断。 集群维护模式 集群未正式上线或暂时离线
Manager”。 报告信息 报文格式 ${alarm.id} 设置告警报告的消息格式,具体要求请参考界面帮助。 报文格式可以包含字母、数字、下划线、 空格、|、 $、 {、 }、 点、中划线,并且不能超过1024个字符。 说明: 报文格式中信息域的说明请参考表3。 报告信息类型 故障
恢复任务失败后数据状态未知 告警解释 执行恢复任务失败后,系统按60分钟周期自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则恢复告警。 告警属性 告警ID 告警级别 是否自动清除 12035 紧急 是 告警参数 参数名称 参数含义
超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment.total.time.threshold”调整)时上报告警。 当分区均衡完成后,告警清除。 该告警仅适用于MRS 3.5.0及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 38017
x及以前版本) 告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12006 致命 是 告警参数
称,单击“资源”,查看上报告警的租户目录所对应的文件目录数上限设置是否合理(根据该租户该目录实际业务情况而定)。 是,执行8。 否,执行6。 根据租户该目录的实际业务情况,在“资源”页面单击“修改”修改或取消上报告警的租户目录所对应的文件目录数上限。 等待1分钟,检查该告警是否恢复。
告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应channel的“channelfullcount”参数。
DataNode 将文件切分成大小相同的块(称为“数据块”),存储在不同的DataNode上,并且周期性地向NameNode报告该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active NameNode
态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况: 健康:作业运行正常,作业状态健康。 亚健康: 出现“ALM-45637 Flink作业task持续背压”告警
useTicketCache=false storeKey=true debug=true; }; 其中keyTab和principal的值请按照实际情况配置,所配置的principal需要有相应的kafka的权限。 配置业务,其中kafka.bootstrap.servers的端口号使用21007,kafka
Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障(每5秒检测一次)或Flume Agent启动失败时(即时上报告警),系统产生此告警。 当检测到Flume Agent进程故障恢复,Flume Agent启动成功,且告警处理完成时,告警恢复。 告警属性
查看告警定位信息,获取上报告警的租户名称,租户目录。 在FusiongInsight Manager首页,在“租户资源”页面选择上报告警的租户名称,单击“资源”,查看上报告警的租户目录所对应的存储空间阈值配置设置是否合理(默认90%为合理值,用户可以根据自己的实际情况设置)。 是,执行5。
取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通过界面的联机帮助,用户可以查看性能指标和告警恢复的详细方法,进行快速排障。 Manager关键特性:统一用户权限管理 Ma