检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12038 监控指标转储失败 告警解释 用户在FusionInsight Manager界面配置监控指标转储后,系统按转储时间间隔(默认60秒)周期性检测监控指标转储结果,转储失败时产生该告警。 转储成功后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12038
HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。
在时间区间选择需要查看监控数据的时间段。 自定义监控指标报表。 单击“定制”,勾选需要显示的监控指标。 单击“确定”保存并显示所选指标。 单击“清除全部”可批量取消全部选中的指标项。 导出监控指标报表。 选择报表的时间范围。 单击“导出”,MRS将生成指定时间范围内、已勾选的集群监控指标报表文件
单击列表中某主机“查看趋势”,会显示当前指标项。当前集群中,当指标为“主机CPU-内存-磁盘使用率”时,不能进行“查看趋势”操作。 单击“导出数据”,可以导出当前指标项集群中所有节点在选中的时间区域内的最大值、最小值、平均值。 表1 指标项 指标分类 指标项 进程 运行的进程总数 进程总数
对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。 服务内部问题导致上报CES数据失败。 处理步骤 打开FusionInsight Manager 页面,选择“运维 > 告警 > 告警”,查看告警详细信息中的附加信息。
查看MRS集群组件监控指标 用户在日常使用中,可以在MRS管理所有组件(含角色实例)的状态及指标信息。状态信息包括运行、健康、配置及角色实例状态统计。指标信息为各组件的主要监控指标项。 查看MRS集群组件监控指标前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在
回滚。 运维支撑 MRS集群的资源完全属于用户,通常情况下,当集群出现问题需要运维人员支撑时,运维人员无法直接访问该集群。为了更好的服务客户,MRS提供两种方式来减少定位问题时的信息传递: 日志共享:用户可以在MRS页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。
查看MRS集群监控指标 查看MRS集群资源监控指标 查看MRS集群组件监控指标 查看MRS集群节点资源监控指标 配置MRS集群监控指标数据转储 父主题: MRS集群运维
实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。 5分钟指标ID:指标对应的5分钟(300s)的指标ID。 指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。 指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。
表中按用户自定义的周期显示分布曲线图。MRS集群指标监控采用周期性监控,历史监控平均周期约为5分钟。 用户可在MRS管理控制台或者Manager界面中查看集群整体的资源概况。 更多详情请参见查看和定制集群监控指标和管理组件和主机监控。 父主题: 安全
Kafka集群监控管理 Kafka集群监控管理包含以下内容: 查看Broker信息 查看Topic信息 查看Consumers信息 通过KafkaManager修改Topic的partition 查看Broker信息 登录KafkaManager的WebUI界面。 在集群列表页面
图1 Flume管理 选择“实例ID”,进入客户端监控列表,在“实时”区域框中,可查看客户端的各监控指标。 选择“历史”进入历史监控数据查询界面。筛选时间段,单击“查看”可显示该时间段内的监控数据。 父主题: Flume运维管理
图1 Flume管理 选择“实例ID”,进入客户端监控列表,在“实时”区域框中,可查看客户端的各监控指标。 选择“历史”进入历史监控数据查询界面。筛选时间段,单击“查看”可显示该时间段内的监控数据。 父主题: Flume运维管理
Flink对接应用运维管理(AOM) 本章节适用于MRS 3.5.0及之后的版本。 Flink对接AOM服务场景介绍 应用运维管理(AOM)服务是一个可观测平台,基于指标、链路、日志、事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监控指标推送至
Manager关键特性:统一监控告警 Manager提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通过界面的联机帮助,用户可以查看性能指标和告警恢复的详细方法,进行快速排障。
选择“运维 > 告警 > 告警”,单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。 监控指标参考 FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。 下表
系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。 用户可通过“运维 >告警 >阈值设置
Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。 “检查周期(秒)”表示Manager检查监控指标的时间间隔。 规则列表中的条目为触发告警的规则。 单击“添加规则”,可以新增指标的监控行为。 表1 监控指标规则参数 参数名
配置MRS集群远程运维 当用户使用集群过程中出现问题需要华为云支持人员协助解决时,用户可先联系华为云支持人员,再通过运维授权功能授权华为云支持人员访问用户机器的权限用于定位问题,或通过“日志共享”功能提供特定时间段内的日志给华为云支持人员以便定位问题。 开启MRS集群远程运维授权 登录MRS管理控制台。
TSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。