检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
checkpoint的语义 execution.checkpointing.mode: EXACTLY_ONCE 通过查看监控信息定位Back Pressure点 Flink提供了很多的监控指标,根据这些指标可以分析任务过程中的性能状况及瓶颈。 【示例】配置采样的样本数和时间间隔: # 有效的反
告警原因 告警可能的原因提示。 序列号 系统产生的告警计数。 附加信息 相关报错信息。 MRS 3.3.0及之后版本:针对监控指标阈值转告警,可以在“附加信息”中查看监控指标值使用情况。 定位信息 定位告警的详细信息。主要包含以下信息: 来源:产品告警的集群 服务名:产生告警的服务名称
${SRV_HOME}/tmp/yarn-nm-recovery yarn.nodemanager.recovery.supervised NodeManager是否在监控下运行。开启此特性后NodeManager在退出后不会清理containers,NodeManager会假设自己会立即重启和恢复containers。
图3 ZooKeeper和HDFS的关系 ZKFC(ZKFailoverController)作为一个ZooKeeper集群的客户端,用来监控NameNode的状态信息。ZKFC进程仅在部署了NameNode的节点中存在。HDFS NameNode的Active和Standby节点均部署有zkfc进程。
RPC队列平均时间”,单击“default”规则所在行的“操作”列的“修改”,修改“紧急”或“重要”告警级别对应的“阈值”为告警出现后1天内监控值的峰值的150%,单击“确定”保存。 等待5分钟,查看该告警是否自动清除。 是,处理完毕。 否,执行6。 查看Guardian TokenServer内存设置是否过小。
如果集群启用了安全服务,在连接ZooKeeper时需要进行身份认证,认证方式有以下两种: keytab方式:需要从MRS集群管理员处获取一个“人机”用户,用于登录MRS平台并通过认证,并且获取到该用户的keytab文件。 票据方式:从MRS集群管理员处获取一个“人机”用户,用于后续的安全登录,开启Kerber
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 通过Kafka
ck.log ZooKeeper实例健康检查日志。 zookeeper-period-check-java.log ZooKeeper配额监控周期检查日志。 审计日志 zk-audit-quorumpeer.log ZooKeeper操作审计日志。 日志级别 ZooKeeper中
表1 结构图说明 名称 描述 Supervisor Process Supervisor负责WebServer上APP的进程管理:启动、停止、监控等。 Hue WebServer 通过Django Python的Web框架提供如下功能。 部署APPs。 提供图形化用户界面。 与数据库连接,存储APP的持久化数据。
beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题
面。 Loader Server Loader的服务端,主要功能包括:处理客户端操作请求、管理连接器和元数据、提交MapReduce作业和监控MapReduce作业状态等。 REST API 实现RESTful(HTTP + JSON)接口,处理来自客户端的操作请求。 Job Scheduler
服务到期 按需购买的集群,没有到期时间。 包年/包月集群到期后进入保留期,此时无法在MRS管理控制台进行该集群的操作,相关接口也无法调用,自动化监控或告警等运维也会停止。如果在保留期结束时您没有续费,集群将终止服务,系统中的数据也将被永久删除。 保证金 按需购买集群时,华为云根据用户等
ck.log ZooKeeper实例健康检查日志。 zookeeper-period-check-java.log ZooKeeper配额监控周期检查日志。 审计日志 zk-audit-quorumpeer.log ZooKeeper操作审计日志。 日志级别 ZooKeeper中
tues文件中有重复entry,报segment文件夹找不到的错误。 Kafka组件问题: MRS Manager上Kafka topic监控页面无数据。 SparkStreaming使用的scala版本与Kafka组件不一致,导致spark访问kafka失败。 SparkStr
通道未授权”且如下功能将受到影响: 集群组件安装、集群扩容、集群缩容、升级Master节点规格功能不可用。 集群的运行状态、告警、事件无法监控。 集群详情页的节点管理、组件管理、告警管理、文件管理、作业管理、补丁管理、租户管理功能不可用。 Manager页面、各组件的Web站点无法访问。
状态、实例对应的主机以及相关的IP地址信息等。 单击实例名称可继续进入实例详情页面,可查看实例基本信息、配置文件、实例日志以及该实例相关的监控指标图表。 图3 查看集群组件实例状态 表2 管理控制台实例状态说明 指标项 状态 描述 运行状态 良好 表示实例当前运行正常。 故障 表示实例当前无法正常工作。
将其修改日志保存到大多数的JournalNode节点中,例如有3个JournalNode,则日志会保存在至少2个节点中。Standby节点监控JournalNodes的变化,并同步来自Active节点的修改。根据修改日志,Standby节点将变动应用到本地文件系统元数据中。一旦发
主机隔离后该主机上的所有角色实例将被停止,且不能对主机及主机上的所有实例进行启动、停止和配置等操作。 主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。 主机隔离后部分服务的实例不再工作,服务的配置状态可能过期。 待操作节点的SSH端口需保持默认(22),否则将导致本章节任务操作失败。
Kafka 直接重启 直接重启业务会中断 直接重启耗时约5分钟。 滚动重启 需要提前查看Broker各实例数据同步正常,可以参考Kafka的监控指标“未完全同步的Partition总数”进行查看。 Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为
Kafka 直接重启 直接重启业务会中断 直接重启耗时约5分钟。 滚动重启 需要提前查看Broker各实例数据同步正常,可以参考Kafka的监控指标“未完全同步的Partition总数”进行查看。 Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为