检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警”页面下“告警”、“事件”的查看权限。 管理权限:“集群”、“运维”页面的管理权限。 User: 查看权限:“系统”页面下“权限”区域中内容的查看权限。 管理权限:“系统”页面下“权限”区域中内容的管理权限。 Audit : 管理权限:“审计”页面信息的管理权限。 Tenant: 查看权限:“租户资源”页面的查看权限。(MRS
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息
企业还可以通过成本中心的“成本监控”,及时发现计划外费用,做到成本的可监控、可分析和可追溯。 详细介绍请参见通过成本分析探索成本和使用量、通过成本监控识别异常成本。 成本优化 成本控制 企业可以在成本中心的“预算管理”页面创建精细粒度的预算来管理成本和使用量,在实际或预测超过预
管理MRS集群组件 查看MRS集群组件运行状态 启动停止MRS集群组件 重启MRS集群组件 添加删除MRS集群组件 修改MRS集群组件配置参数 查看MRS集群已修改的组件配置参数 同步MRS集群组件配置参数 添加MRS组件自定义参数 管理MRS角色实例 管理MRS角色实例组 修改MRS角色实例参数
管理MRS集群节点 查看MRS集群节点运行状态 启停MRS集群节点上所有角色 隔离MRS集群节点 修改MRS集群节点机架信息 升级MRS集群Master节点规格 同步MRS集群节点磁盘信息 添加MRS集群节点标签 配置MRS集群节点引导操作 父主题: 管理MRS集群
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
Manager基本原理 Manager功能 Manager是MRS的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 Manager支持大规模集群的性能监控、告警、用户管理、权限管理、审计、服务管理、健康检查、日志采集等功能。 Manager结构 Manager的整体逻辑架构如图1所示。
KafkaManager介绍 KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager可以: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举
产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。 服务内部问题导致上报CES数据失败。
运行Spark作业 运行SparkSql作业 运行HiveSql作业 运行Flink作业 如何监控集群 查看MRS云服务操作日志 查看和定制集群监控指标 导出服务日志 管理服务和主机监控 查看及导出审计日志 运维授权 如何使用集群组件 快速使用Flink客户端 快速使用Flume
原因分析 查看Kafka服务状态: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群
线上VPC的连接通道。云专线详情请参考什么是云专线。 弹性IP访问和云专线访问可以在MRS集群管理控制台上进行切换:登录MRS管理控制台,在待操作的MRS集群“概览”页面单击“集群管理页面”后的,在打开的页面中进行切换。 通过ECS访问FusionInsight Manager:
系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维
指定服务器上用户自定义已经存在的数据监控目录。 查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。 是,执行17。 否,执行16。 使用Flume运行用户进入监控目录,若可以创建文件,这说明Flume运行用户是否对该监控目录具有可读可写可执行权限。 执行“chmod
0个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception
DefaultMetricsConsumer:表示不收集OBS监控指标 要使用OBS监控功能,需确保上报OBS监控指标开关打开。 org.apache.hadoop.fs.obs.metrics.OBSAMetricsProvider 父主题: 使用Spark/Spark2x
通过ECS访问FusionInsight Manager 进入MRS管理控制台。 在“现有集群”列表中,单击指定的集群名称。 记录集群的“可用区”、“虚拟私有云”、“集群管理页面”、“安全组”。 在管理控制台首页服务列表中选择“弹性云服务器”,进入ECS管理控制台,创建一个新的弹性云服务器。 弹性云服务
KafkaManager KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager进行以下操作: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举
0个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark