检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。 节点:已隔离、隔离失败、取消隔离失败、启动节点失败、已解除隔离。 当处于处理超时的节点或者磁盘状态发生变更时,告警自动恢复。 该告警仅适用于MRS
配置HetuEngine Worker节点数量 配置HetuEngine Worker节点数量说明 在HetuEngine的WebUI界面,可以对计算实例的Worker节点个数进行调整,实现计算实例在资源不够时扩充资源,资源空闲时释放资源。其中包含手动扩缩容和自动扩缩容两种方式进行Worker个数调整。
建议管理员定期修改集群节点操作系统用户的登录密码,以提升系统运维安全性。 前提条件 获取待修改密码“omm”、“ommdba”用户对应节点的IP地址。 修改omm和ommdba用户需要获取root用户密码。 修改MRS集群节点操作系统用户密码 以root登录待修改密码节点。 执行以下命令切换用户。
ALM-50216 FE节点使用的内存比率超过阈值 告警解释 系统每30秒周期性检查FE节点使用的内存比率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点使用的内存比率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50216 紧急 是 告警参数
MRS集群内的节点中可以部署爬虫服务吗? 问: MRS集群内的节点中可以部署爬虫服务吗? 答: 为正常保障集群稳定运行,MRS集群内节点中不能部署爬虫服务或其他第三方服务。 父主题: 周边生态对接类
使用调整集群节点接口时参数node_id如何配置? 问: 使用调整集群节点接口时(/v1.1/{project_id}/cluster_infos/{cluster_id}),请求参数“node_id”如何配置? 答: 使用调整集群节点接口时,请求参数“node_id”的值固定为“node_orderadd”。
MRS集群Task节点弹性伸缩 MRS集群Task节点弹性伸缩概述 添加MRS集群Task节点弹性伸缩策略 管理MRS集群弹性伸缩策略 父主题: MRS集群容量调整
rent.bak 以root用户登录主NameNode节点,执行如下命令复制fsimage文件到备NameNode节点。 scp -rp /srv/BigData/namenode/current/ {备NameNode节点IP}:/srv/BigData/namenode/ chown
如何提高集群Core节点的资源使用率? 进入 Yarn服务配置页面: MRS 1.8.10及之前版本,登录MRS Manager页面,然后选择“服务管理 > Yarn > 服务配置”,单击“基础配置”下拉菜单,选择“全部配置”。 MRS 1.8.10之后及2.x版本,单击集群名称,登录集群详情页面,选择“组件管理
修改节点主机名后导致MRS集群状态异常 问题现象 修改节点主机名后,MRS集群状态异常。 原因分析 修改节点hostname导致兼容性问题和故障。 处理步骤 以root用户登录集群的任意节点。 在集群节点中执行cat /etc/hosts命令,查看各个节点的hostname值,根
执行MRS集群节点健康检查 如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本)
FlinkServer主备之间的心跳中断有很多原因,如果是主节点出问题,那么心跳中断后备节点会升为主节点,继续对外提供服务;如果是因为其他原因,比如网络问题导致心跳中断,很可能会出现双主的现象,因为备节点也会升为主节点,会导致主备数据同步出现问题,但Flinkserver可以提供服务。
Manager主备节点同步数据异常 告警解释 系统按60秒周期检测Manager主备节点同步数据情况,当备Manager无法与主Manager同步文件时,产生该告警。 当备Manager与主Manager正常同步文件时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12011
使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket” 用户问题 普通集群在Core节点新建用户安装使用HDFS客户端报错。 问题现象 普通集群在Core节点新建用户安装使用客户端报错如下: 2020-03-14 19:16:17
告警级别 可自动清除 12006 致命 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 节点业务无法提供。 可能原因 网络断连或硬件故障。 处理步骤 检查网络是否断连或硬件是否故障。
ALM-50217 FE节点堆内存的使用率超过阈值 告警解释 系统每30秒周期性检查FE节点堆内存的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点堆内存的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50217 紧急 是 告警参数
集群名称,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 选择“弹性公网IP”页签,单击“绑定弹性公网IP”为弹性云服务器绑定一个弹性公网IP。 登录Master节点执行pip3 install命令安装Python。
ALM-50210 所有BE节点中最大的compaction score值超过阈值 告警解释 系统每30秒周期性检查所有BE节点中最大的compaction score值,当检查到该值超出阈值(默认值为10)时产生该告警。 告警属性 告警ID 告警级别 是否可自动清除 50210 重要
ALM-45641 FlinkServer主备节点同步数据异常 本章节适用于MRS 3.2.0及以后版本。 告警解释 系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。 当备FlinkS
ALM-45429 ClickHouse扩容节点上同步表元数据失败 本章节仅适用于MRS 3.1.2及之后版本。 告警解释 ClickHouse扩容时创建分布式表对应的本地表失败时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 45429 重要 否 告警参数 参数名称 参数含义