检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组件管理类 MRS集群中安装的组件能否删除? 如何查看MRS集群各组件配置文件路径? Hive服务运行状态为亚健康是否会影响上层业务? 如何获取MRS集群ZooKeeper的IP地址和端口?
集群至少安装1天以上,最多保留90天监控数据。 通过Manager查看集群监控(MRS 2.x及之前版本) 登录Manager页面,选择“系统概览”。 在“时间区间”选择需要查看监控数据的时间段。可供选择的选项如下: 实时、最近3小时、最近6小时、最近24小时、最近一周、最近一个
MRS提供统一的可视化大数据集群管理界面,包括服务启停、配置修改、健康检查等能力,并提供可视化、便捷的集群管理监控告警功能;支持一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。 MRS联合消息通知服务(SMN),在配置消息通知后,可以实时给用户发送MRS集群健康状态,用户可以通过手机短信或邮箱
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service。 登录FusionInsight Manager,选择“集群
账户。建议使用Flume服务默认用户flume_server/hadoop.<系统域名>@<系统域名> 说明: “flume_server/hadoop.<系统域名>”为用户名,用户的用户名所包含的系统域名所有字母为小写。例如“本端域”参数为“9427068F-6EFA-4833-B43E-60CB641E5B6C
多租户模式下,JDBCServer代理检查JDBCServer健康状态周期。 60000 spark.thriftserver.proxy.healthcheck.recheckTimes 多租户模式下,JDBCServer代理检查JDBCServer健康状态失败后重试次数。 3 spark.thriftserver
ALM-18002 NodeManager心跳丢失 告警解释 系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值 告警解释 系统每30s周期性采集Presto Coordinator进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在FusionInsight Manager中通过“运维
多租户模式下,JDBCServer代理检查JDBCServer健康状态周期。 60000 spark.thriftserver.proxy.healthcheck.recheckTimes 多租户模式下,JDBCServer代理检查JDBCServer健康状态失败后重试次数。 3 spark.thriftserver
MRS集群运维 MRS集群运维说明 登录MRS集群 查看MRS集群监控指标 MRS集群健康检查 MRS集群容量调整 备份恢复MRS集群数据 安装MRS集群补丁 MRS集群补丁说明 查看MRS集群日志 MRS集群安全配置 查看与配置MRS告警事件 MRS集群告警处理参考 配置MRS集群远程运维
HetuEngine的客户端,使用者通过客户端向服务端提交查询请求,然后将执行结果取回并展示。 HSBroker HetuEngine的服务管理,用作计算实例的资源管理校验,健康监控与自动维护等。 HSConsole 对外提供数据源信息管理,计算实例管理,自动化任务的查看等功能的可视化操作界面和RESTful接口。
可以调用节点将结果返回给客户端。 Impalad进程通过持续的和StateStore通信来确认自己所在的节点是否健康和是否可以接受新的任务请求。 Impala StateStore 负责检查Impala的所有进程健康状态管理进程,进程名为statestored,当有Impalad的进程因硬件失败、网络错
管理FlinkServer作业 查看FlinkServer作业健康状况 导入导出FlinkServer作业信息 配置FlinkServer作业运行残留信息自动清理 配置FlinkServer作业重启策略 配置FlinkServer作业中添加第三方依赖jar 配置FlinkServer作业中使用UDF
表1 补丁基本信息 补丁号 MRS 1.8.10.1 发布时间 2020-01-07 解决的问题 MRS大数据组件 MRS Kafka优化健康检查及滚动重启逻辑 补丁兼容关系 无。 安装补丁的影响 安装MRS 1.8.10.1补丁期间会重启MRS Manager和Kafka服务,重启服务期间会引起服务暂时不可用。
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service。 登录FusionInsight Manager,选择“集群
Manager。 单击“主机管理”,看所有主机状态。 主机操作状态和健康状态分别如下表所示。 表5 主机操作状态 状态 描述 正常 主机及主机上的服务角色正常运行。 已隔离 主机被用户隔离,主机上的服务角色停止运行。 表6 主机健康状态 状态 描述 良好 主机心跳检测正常。 故障 主机心跳超时未上报。
产生该告警的提交用户及队列名称。 对系统的影响 系统负载高导致JDBC作业提交耗时增加,可能影响作业执行效率。同时,因为是异步检测,所以该告警触发并不会影响作业继续执行。 可能原因 该节点JDBCServer存在负载高等原因,需客户通过集群采集的系统指标及作业执行情况关注集群健康度。 处理步骤 检查上报告警的JDBCServer实例
Flink应用开发常用概念 DataStream 数据流,是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入,可以通过socket、Kafka和文件等形式导入,在Flink系统处理后,通过Socket、Kafka和文件等输出到外部系统,这是Flink的核心概念。 Data Transformation
Task节点本身不存储集群数据,属于计算节点,不存在节点数据迁移的问题。因此在选择Task节点时,优先选择健康状态为故障、未知、亚健康的节点进行缩容。这些节点实例的健康状态信息可以在MRS上的“实例”管理界面查看。 缩容校验策略 缩容节点选择完成后,为了避免组件退服失败,不同组
解决Yarn精细化监控部分指标没有数据的问题。 解决3AZ环境DataNode 5个节点,健康度阈值是80%,构造每个AZ下一个DataNode磁盘属主root:root,只有一个DataNode的AZ报了AZ不健康的问题。 解决AZ下缩容DataNode,副本未按照预期AZ策略补齐,导致退服失败的问题。