检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对端DBService HA名称。 对系统的影响 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 可能原因 主备DBService节点间链路异常。 处理步骤 检查主备DBService服务器间的网络是否正常。 在FusionInsight
ALM-12010 Manager主备节点间心跳中断 告警解释 当主Manager节点在7秒内没有收到备Manager节点的心跳信号时,产生该告警。 当主Manager节点收到备Manager节点的心跳信号后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12010 重要
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败 问题现象 集群访问OBS上报403异常。 原因分析 集群Master节点NTP时间与集群外节点的NTP服务器时间不同步,时间相差超过15min,导致集群访问OBS时鉴权失败,上报403异常。 处理步骤 以root用户登录集群主Master节点。
时也会监控这个文件,导致此文件被两个进程同时监控。当其中一个进程按照配置滚动的时候,删除了最早的日志文件,但是另一个进程依旧占用此文件句柄,从而产生了deleted状态的文件。 处理步骤 将Spark的executor日志输出目录修改成其他名称: 打开日志配置文件,默认在“<客户
配置MRS集群外节点用户访问普通模式集群资源 操作场景 集群安装为普通模式时,各组件客户端不支持安全认证且无法使用kinit命令,所以集群外的节点默认无法使用集群中的用户,可能导致在这些节点访问某个组件服务端时用户鉴权失败。 如果需要在集群外节点以组件用户身份访问集群资源,管理员
ALM-50216 FE节点使用的内存比率超过阈值 告警解释 系统每30秒周期性检查FE节点使用的内存比率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点使用的内存比率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50216 紧急 是 告警参数
配置HetuEngine Worker节点数量 配置HetuEngine Worker节点数量说明 在HetuEngine的WebUI界面,可以对计算实例的Worker节点个数进行调整,实现计算实例在资源不够时扩充资源,资源空闲时释放资源。其中包含手动扩缩容和自动扩缩容两种方式进行Worker个数调整。
配置HetuEngine Coordinator运行的节点范围 默认情况下,Coordinator和Worker节点会随机启动在Yarn的NodeManager节点上,若需要开放端口,需要开放所有NodeManager节点的端口。HetuEngine利用Yarn的资源标签提供了限
以root用户登录主OMS节点执行ifconfig命令,查找当前节点的浮动IP。 例如执行后结果如下,则当前节点的浮动IP为192.168.0.3。 登录NTP时间异常的Master节点,执行以下命令关闭NTP服务。 service ntpd stop 执行以下命令手动同步主、备Master节点的时间。
建议管理员定期修改集群节点操作系统用户的登录密码,以提升系统运维安全性。 前提条件 获取待修改密码“omm”、“ommdba”用户对应节点的IP地址。 修改omm和ommdba用户需要获取root用户密码。 修改MRS集群节点操作系统用户密码 以root登录待修改密码节点。 执行以下命令切换用户。
产生告警的主机名。 对系统的影响 节点业务无法提供。 可能原因 网络断连或硬件故障。 处理步骤 检查网络是否断连或硬件是否故障。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。 登录主管理节点。 执行以下命令检查故障节点是否可以访问: ping
ALM-12010 Manager主备节点间心跳中断(2.x及以前版本) 告警解释 当主Manager节点在7秒内没有收到备Manager节点的心跳信号时,产生该告警。 当主Manager节点收到备Manager节点的心跳信号后,告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-50217 FE节点堆内存的使用率超过阈值 告警解释 系统每30秒周期性检查FE节点堆内存的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点堆内存的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50217 紧急 是 告警参数
CLICKHOUSE_CONF_DIR=${CLICKHOUSE_CONF_DIR} 执行以下命令,运行元数据同步工具,从已有节点上同步元数据到故障节点: sh 集群安装目录/FusionInsight_ClickHouse_*/install/FusionInsight-Cli
rent.bak 以root用户登录主NameNode节点,执行如下命令复制fsimage文件到备NameNode节点。 scp -rp /srv/BigData/namenode/current/ {备NameNode节点IP}:/srv/BigData/namenode/ chown
在“任务类型”参数选择“定时任务”时填写,有效值为当前时间以后的某个时间(最长为90天以后)。 在选择迁移节点界面,填写“迁入节点主机名”、“迁出节点主机名”,单击“下一步”。 “迁入节点主机名”与“迁出节点主机名”只能各填写一个主机名,不支持多节点迁移。 具体的参数值可以在ClickHouse服务界面单击“实例”页
ALM-50210 所有BE节点中最大的compaction score值超过阈值 告警解释 系统每30秒周期性检查所有BE节点中最大的compaction score值,当检查到该值超出阈值(默认值为10)时产生该告警。 告警属性 告警ID 告警级别 是否可自动清除 50210
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 已创建的用户在本节点无操作权限。 可能原因 扩容过程中已有节点停止或故障。 处理步骤 在FusionInsight Manager首页,选择“集群 > 服务 > ClickHouse
在“任务类型”参数选择“定时任务”时填写,有效值为当前时间以后的某个时间(最长为90天以后)。 在选择迁移节点界面,填写“迁入节点主机名”、“迁出节点主机名”,单击“下一步”。 “迁入节点主机名”与“迁出节点主机名”只能各填写一个主机名,不支持多节点迁移。 具体的参数值可以在ClickHouse服务界面单击“实例”页
NameNode节点长时间满负载导致客户端无响应 问题 当NameNode节点处于满负载、NameNode所在节点的CPU 100%耗尽时,导致NameNode无法响应,对于新连接到该NameNode的HDFS客户端,能够主备切换连接到另一个NameNode,进行正常的操作,而对