检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
交用户任务(流式作业)的能力。 TaskManager Flink系统的业务执行节点,执行具体的用户任务。TaskManager可以有多个,各个TaskManager都平等。 JobManager Flink系统的管理节点,管理所有的TaskManager,并决策用户任务在哪些T
交用户任务(流式作业)的能力。 TaskManager Flink系统的业务执行节点,执行具体的用户任务。TaskManager可以有多个,各个TaskManager都平等。 JobManager Flink系统的管理节点,管理所有的TaskManager,并决策用户任务在哪些T
如果集群硬件异构,请收集多种规格和对应节点数,参见表2。 例如: 2台32U64G机器部署NameNode + ResourceManager 2台32U64G机器部署HiveServer 20台16U32G机器部署DataNode和NodeManager 是否开启Kerberos认证 是或否
准备连接Doris集群配置文件 准备集群认证用户信息 对于未开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下Doris权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录安装了MySQL客户端的节点,使用admin用户连接Doris服务。
发生连接数告警时,表示连接到HiveServer的session数过多,将会导致无法建立新的连接。 可能原因 连接HiveServer的客户端过多。 处理步骤 增加Hive最大连接数配置。 登录MRS集群详情页面,选择“组件管理”。 选择“Hive > 服务配置”,将“基础配置”切换为“全部配置”。
产生告警的主机名。 对系统的影响 ommdba用户过期,OMS数据库无法管理,数据不能被访问。 可能原因 该主机ommdba用户即将过期。 处理步骤 检查系统中ommdba用户是否即将过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage
产生告警的主机名。 对系统的影响 omm用户过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 该主机omm用户即将过期。 处理步骤 检查系统中omm用户是否即将过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l
HBase存在损坏的StoreFile文件,可能会导致位于该文件上的数据丢失,业务查询数据可能出现不一致。 可能原因 StoreFile文件内容损坏。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19025”的告警的“定位信息”中上报该告警的服务名。
问题现象 运行样例时提示Topic鉴权失败“example-metric1=TOPIC_AUTHORIZATION_FAILED”。 解决步骤 向管理员申请该Topic的访问权限。 如果拥有权限后还是无法访问该Topic,使用管理员用户登录FusionInsight Manager,选择“集群
同时打开的进程过多。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 在FusionInsight Manager界面,基于实际CPU使用情况,修改告警阈值和平滑次数配置项。 根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 进程
K_HOME/conf/spark-defaults.conf”中的配置项“spark.driver.extraJavaOptions”中添加如下内容: -XX:OnOutOfMemoryError='kill -9 %p' 父主题: Spark应用开发常见问题
对节点磁盘进行扩容。 磁盘扩容后,等待2分钟检查告警是否清除。 是,操作结束。 否,执行16。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“DBService”和OMS下的“OS”、“OS Statistics”、“OS
K_HOME/conf/spark-defaults.conf”中的配置项“spark.driver.extraJavaOptions”中添加如下内容: -XX:OnOutOfMemoryError='kill -9 %p' 父主题: Spark应用开发常见问题
ALM-12187 磁盘分区扩容失败 告警解释 系统按60秒周期进行扫描,当检测到磁盘空间扩容后,会进行磁盘分区空间扩容操作,如果磁盘分区扩容失败,则触发此告警。 系统如果检测到磁盘空间扩容后,磁盘分区扩容成功,则告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 12187
内CPU使用率达到上限。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 基于实际CPU使用情况,修改告警阈值和平滑次数配置项。 登录FusionInsight Manager,根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > CPU
对系统的影响 omm用户或密码过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 系统omm用户或密码即将过期。 处理步骤 检查系统中omm用户和密码是否正常。 登录故障节点。 执行以下命令来查看当前omm用户密码设置信息: chage -l omm 检查系统提示信息,是否用户已过期。
${BIGDATA_HOME}/jdk/jre/lib/security. 原因分析 用户使用的JDK中的jar包与MRS服务认证的jar包版本不一致。 处理步骤 以root用户登录集群Master1节点。 执行如下命令,查看MRS服务认证的jar包。 ll /opt/share/local_policy/local_policy
可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。 NameNode负荷过高。 处理步骤 查看DataNode是否故障。 在集群节点使用客户端,执行hdfs dfsadmin -report命令,可以查看Dead datano
产生告警的主机名。 对系统的影响 无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。 可能原因 备集群HBase服务异常。 网络异常。 处理步骤 观察告警是否自动修复。 登录MRS集群详情页面,选择“告警管理”。 在告警列表中单击该告警,从“告警详情”的“产生时间”处获得告警的产生时间,查看告警是否持续超过5分钟。
ion的handler数,请求该Region的业务可能变慢或者失败重试。 可能原因 业务访问HBase服务时单Region请求过高。 处理步骤 检查HBase是否存在单Region请求过高。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”。 在“HBase