检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-13000 ZooKeeper服务不可用 告警解释 系统每60秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 13000 紧急 是 告警参数 参数名称
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
ALM-12016 CPU使用率超过阈值 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值范围。当检测到CPU使用率连续多次(可配置,默认值为10)超出阈值范围时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,
如何解除网络ACL的关联子网 操作场景 用户可根据自身网络需求,解除网络ACL与子网的关联关系。 操作步骤 登录管理控制台。 在服务列表中单击“网络 > 虚拟私有云”。 在左侧导航栏单击“访问控制 > 网络ACL”。 在右侧在“网络ACL”列表区域,选择网络ACL的名称列,单击您需要修改的网络ACL名称进入详情页面。
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络状态 > DNS解析时长 > DNS解析时长”修改阈值。
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
x及以前版本) 告警解释 系统每30秒周期性检测TCP临时端口使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到TCP临时端口使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 主机 > 网络状态 > TCP临时端口使用率 > TCP临时端口使用率”修改阈值。
告警解释 系统每30秒周期性检测TCP临时端口使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到TCP临时端口使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络状态 > TCP临时端口使用率”修改阈值。
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值。当检测到进程数超出阈值时产生该告警。 当主机中omm用户D状态进程数小于或等于阈值时,告警恢复。
ALM-45425 ClickHouse服务不可用 告警解释 告警模块按60秒周期检测ClickHouse实例状态,当检测到所有ClickHouse实例异常时,系统产生此告警。 当系统检测到任一ClickHouse实例恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
告警解释 系统按30秒周期性检测LdapServer数据,如果连续12次检测,Manager的主备LdapServer的数据内容都不一致,产生该告警,当两者的数据一致时,对应告警恢复。 系统按30秒周期性检测LdapServer数据,如果连续12次检测,集群中的LdapServe
打开Hue页面的时候提示“Proxy Error”。 原因分析 网络故障(如:错包率高、高延迟等)导致Httpd没有接收到报文或者接收到了错误报文。 时钟跳变或其他因素的影响导致Httpd服务与Hue服务认证关系失效。 排查思路 排查是否发生过网络故障或时钟跳变。 排查当前是否发生过或仍存在Hue服务相关告警。
对系统的影响 业务延迟:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致并发任务处理变慢、业务延迟。 业务失败:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致作业运行失败。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。
ALM-12104 knox资源异常 告警解释 HA每70秒周期性检测Manager的knox资源。当HA连续3次检测到knox资源异常时,产生该告警。 当HA检测到knox资源正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12104 重要 是 告警参数 参数名称
执行ping命令,查看HSBroker所在主机与ZooKeeper、HDFS、Yarn、DBService、Hive服务所在主机的网络连接是否正常。 是,执行30。 否,执行28。 联系网络管理员恢复网络。 在告警列表中,查看“ALM-45000 HetuEngine服务不可用”告警是否清除。 是,处理完毕。