检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调整DataNode磁盘坏卷信息 配置场景 在开源版本中,如果为DataNode配置多个数据存放卷,默认情况下其中一个卷损坏,则DataNode将不再提供服务。用户可以通过修改配置项“dfs.datanode.failed.volumes.tolerated”的值,指定失败的个数,
更改NodeManager的存储目录 操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时,MRS集群管理员需要在Manager中修改NodeManager的存储目录,以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn.nodemanager.local-dirs
均衡Kafka扩容节点后数据 操作场景 用户可以在Kafka扩容节点后,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载。 本章节内容适用于MRS 3.x之前版本。3.x及之后版本请参考配置Kafka数据均衡工具。 前提条件 MRS集群管理员已明确业务需求,并准备一个Kafka
ALM-50205 BE CPU使用率超过阈值 告警解释 系统每30秒周期性检测BE CPU使用率。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑次数大于1,CPU使用率小于或等于阈值的
ALM-50231 Doris中存在异常Tablet 告警解释 告警模块按5分钟周期检查Doris集群中是否存在异常的Tablet,当存在异常Tablet时,产生此告警。 当检测到Doris集群中不存在异常Tablet时,告警恢复。 该告警仅适用于MRS 3.5.0及之后版本。 告警属性
ALM-45325 Presto服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警;当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急
ALM-24000 Flume服务不可用 告警解释 告警模块按180秒周期检测Flume服务状态,当检测到Flume服务异常时,系统产生此告警。 当系统检测到Flume服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24000 紧急 是 告警参数
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本
ALM-12049 网络读吞吐率超过阈值 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
ALM-12089 节点间网络互通异常 告警解释 告警模块按10s周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
ALM-12100 AD服务器连接异常 告警解释 第三方AD对接后,按照同步时间周期(默认60分钟)或手动同步第三方AD域用户,在同步数据时检查AD服务状态,当连续3次检测到AD服务不可用时产生告警。AD服务恢复时,告警清除。 该章节适用于MRS 3.1.5及之后版本。 告警属性
ALM-12110 获取ECS临时ak/sk失败 告警解释 meta每五分钟调用ECS接口获取AK/SK信息,并缓存在meta中,在AK/SK过期失效之前会再次调用ECS接口更新AK/SK,如果连续三次调用接口失败,会产生该告警。 当meta服务调用ECS接口成功时,告警清除。 告警属性
ALM-12190 Knox连接数超过阈值 告警解释 系统周期性检测Knox所有拓扑的连接数情况,当存在拓扑的当前连接数超过最大连接数的阈值(默认为90%)时上报此告警,当连接数低于阈值后,告警自动清除。 该告警适用于MRS 3.1.0及之后版本集群。 告警属性 告警ID 告警级别
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-18023 Yarn任务挂起数超过阈值 告警解释 告警模块按60秒周期检测Yarn队列上pending的应用的数量,当root队列上处于pending状态的应用的数量超过60时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18023 重要 是 告警参数 参数名称
执行MRS集群节点健康检查 如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本)
回滚补丁 回滚补丁前检查 回滚补丁 回滚补丁后操作 父主题: MRS 3.3.1-LTS.1.1补丁说明
补丁安装后操作 重新打开弹性伸缩 升级完补丁后需要重新打开弹性伸缩,操作如下: 登录华为云管理控制台,在“现有集群”列表中选择对应集群,单击“弹性伸缩”。 开启安装前关闭的弹性策略。 父主题: MRS 3.1.0 运维通道补丁说明
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理
补丁基本信息说明 表1 补丁基本信息 补丁号 MRS_3.3.0.3.1 发布时间 2024-12-10 解决的问题 MRS_3.3.0.3.1修复问题列表: StarRocks BE实例支持滚动重启。 StarRocks内核开源问题回合:use db lock in follower