检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提高nodemanager进程所持有的集群资源。 MRS Manager界面操作: 登录MRS Manager页面,选择“服务管理 > Yarn > 服务配置”。 在“参数类别”中选择“全部配置”,然后在搜索框中搜索yarn.nodemanager.resource.memor
HDFS客户端安装在数据节点导致数据分布不均衡 问题背景与现象 HDFS的DataNode数据分布不均匀,在某节点上磁盘使用率很高,甚至达到100%,其他节点空闲很多。 原因分析 客户端安装在该节点,根据HDFS数据副本机制,第一个副本会存放在本地机器,最终导致节点磁盘被占满,而其他节点空闲很多。
告警”页面下“告警”、“事件”的查看权限。 System_administrator 系统管理员,具有Manager的管理员权限及所有组件服务管理员的权限。 default 为集群default租户创建的默认角色。拥有Yarn组件default队列的管理权限。非首个安装集群的de
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 如果任务失败,选择“重试安装”,只有当“状态”显示为“已安装”时,才能进入下一步操作。
告警属性 告警ID 告警级别 是否可自动清除 45003 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 设备分区名 产生告警的磁盘分区。 Trigger Condition
告警ID 告警级别 是否可自动清除 45004 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Running Queries Backlog 产生告
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 用户HA证书文件已经失效,会导致主备模式下FlinkServer将无法正常对外提供服务,FlinkServer提交Flink作业功能无法正常使用。
修改MRS集群数据库用户密码 修改OMS数据库管理员密码 修改OMS数据库访问用户密码 修改MRS集群组件数据库用户密码 重置MRS集群组件数据库用户密码 重置DBService数据库omm用户密码 修改DBService数据库compdbuser用户密码 父主题: MRS集群安全配置
告警属性 告警ID 告警级别 是否自动清除 12083 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ommdba密码过期,OMS数据库无法管理,数据不能访问。
告警属性 告警ID 告警级别 是否可自动清除 12187 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 挂载目录名 产生告警的挂载目录名。 对系统的影响 磁盘分区扩容失败可能会对系统产生以下影响:
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络I
建议同时调节“-Xms”的值,使“-Xms”和“-Xmx”比值为1:2,这样可以避免JVM动态调整堆内存大小时影响性能。 选择“更多 > 重启服务”重启服务。 在Hive服务重启期间,正在重启的实例无法对外提供服务,且对应实例上正在执行的SQL任务可能失败。 观察界面告警是否清除。 是,处理完毕。 否,执行7。 收集故障信息
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 正在运行的调度任务会阻塞,无法提交新的调度任务。 可能原因 Yarn服务异常。 Oozie连接Yarn异常。
GC中回收old区所花时长”修改阈值。 当HBase服务的老年代GC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 19007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名
型。它作为发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。 登录管理控制台。 单击“服务列表”选择“管理与监管 > 消息通知服务”。 进入消息通知服务页面。 在左侧导航栏,选择“主题管理 > 主题”。 进入主题页面。 在主题页面,单击“创建主题”,开始创建主题。
启停MRS集群节点上所有角色 当主机(节点)故障异常时,用户可能需要在MRS停止主机上的所有角色,对主机进行维护检查。故障清除后,启动主机上的所有角色恢复主机业务。 操作MRS集群前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“
回滚补丁 回滚补丁前检查 回滚补丁 卸载补丁后操作 父主题: MRS 3.1.0 运维通道补丁说明
告警属性 告警ID 告警级别 是否自动清除 45636 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 任务名 产生告警的任务名称。 用户名 产生告警的用户名称。 对系统的影响 Flink作业的CheckPoint连续失败,超
MRS 2.1.0版本集群对Storm日志的大小有什么限制? 问: MRS 2.1.0版本的集群对Storm日志的大小有什么限制? 答: MRS 2.1.0版本的集群对Storm日志有不超过20G的限制,超出后会循环删除。 因为日志是保存在系统盘上,有空间限制。如需长期保存,则需要将日志挂载出来。
DataArts Studio调度Spark作业偶现失败如何处理? 问题现象 DataArts Studio调度spark作业,偶现失败,重跑失败,作业报错: Caused by: org.apache.spark.SparkException: Application appl