检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。 “检查周期(秒)”表示Manager检查监控指标的时间间隔。 规则列表中的条目为触发告警的规则。 单击“添加规则”,可以新增指标的监控行为。 表1 监控指标规则参数
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。
是否成功来判断。 如果集群为安全集群,可能是Flink的SSL证书配置错误,或者证书过期。 解决方法 增加队列的资源。 排除用户jar包中的Flink和Hadoop依赖,依赖环境中的jar包。 重新配置Flink的SSL证书,可参考从零开始使用Flink。 父主题: 作业管理类
Futures timed out after [10000 milliseconds] 可能原因 Flink开启了SSL通信加密,却没有正确的配置SSL证书。 解决办法 针对MRS 2.x及之前版本,操作如下: 方法1: 关闭Flink SSL通信加密,修改客户端配置文件“conf/flink-conf
作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常 问题 安全模式下,为什么作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常? 回答 HDFS_DELEGATION_TOKEN到期的异常是由于token没有更新或者超出了最大生命周期。 在
作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常 问题 安全模式下,为什么作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常? 回答 HDFS_DELEGATION_TOKEN到期的异常是由于token没有更新或者超出了最大生命周期。 在
登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3 Kafka集群监控 图4 Topic监控 图5 Consumer监控 Kafka Eagle对接常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
where条件以及索引等设置不合理问题,导致SQL查询很慢,影响数据库的整体性能。针对该场景,MRS提供了ClickHouse慢查询语句的监控功能。 正在进行的慢查询 当前还在执行没有返回结果的慢SQL语句信息可以通过该界面查询。 慢查询菜单路径 MRS 3.2.0之前版本:登录FusionInsight
s开发环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/
s开发环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/
xample样例代码,需进行以下操作: 需放置准备集群认证用户信息获取到的认证文件“user.keytab”和“krb5.conf”及SSL证书文件“truststore.jks”到各样例工程的“..\src\main\resources”目录下。 配置各样例工程的“..\src
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置HTTPS SSL证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
指定服务器上用户自定义已经存在的数据监控目录。 查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。 是,执行17。 否,执行16。 使用Flume运行用户进入监控目录,若可以创建文件,这说明Flume运行用户是否对该监控目录具有可读可写可执行权限。 执行“chmod
DefaultMetricsConsumer:表示不收集OBS监控指标 要使用OBS监控功能,需确保上报OBS监控指标开关打开。 org.apache.hadoop.fs.obs.metrics.OBSAMetricsProvider 父主题: 使用Spark/Spark2x
MRS集群提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态。 MRS支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发告警信息,并在告警页面中出现此告警信息。 如果部分阈值类监控告警经评估后对业务影响可忽
包月”时显示。 创建时间 显示集群创建时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期时间 显示集群到期时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期处理策略 到期进入宽限期。该参数仅在“付费类型”为“包年/包月”时显示。 父主题: 管理MRS集群
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。