检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
正在提交的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在提交的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29010 重要 是 告警参数 类别 参数名称
以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。 cd /opt/client 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,进行用户认证。(普通模式跳过此步骤) kinit 组件业务用户 执行以下命令,切换到Kafka客户端安装目录。
使用omm用户登录主管理节点。 执行调度器切换。 调度器切换分为三种模式: 0:将Capacity调度器配置转换到Superior,然后将Capacity调度器切换到Superior。 1:只将Capacity调度器配置转换到Superior。 2:只将Capacity调度器切换到Superior。
使用Presto查询Kudu表,报表找不到的错误: 后台报错: 原因分析 在实际的运行节点(worker实例所在节点)没有Kudu相关配置。 处理步骤 在集群Presto所有的worker实例节点上添加配置文件kudu.properties。 配置文件保存路径:/opt/Bigda
xml文件解析异常导致WebHCat启动失败 用户问题 MRS的Hive服务故障,重新启动后,Master2节点上的HiveServer和WebHCat进程启动失败,Master1节点进程正常。 原因分析 登录Master2节点,查看“/var/log/Bigdata/hive/hiveserver/hive
12090 Manager 慢盘节点隔离成功 重要 12091 Manager 慢盘节点取消隔离成功 重要 12092 Manager 慢盘节点实例启动成功 重要 12093 Manager 慢盘节点隔离失败 重要 12094 Manager 慢盘节点实例启动失败 重要 12095
生成元数据镜像文件失败的次数超过阈值 告警解释 系统每30秒周期性检查FE节点生成元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。 当系统检查到FE节点生成元数据镜像文件失败的次数低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50209 紧急 是 告警参数 参数名称
开启Oozie HA机制 操作场景 Oozie多个节点同时提供服务的时候,通过ZooKeeper来提供高可用(HA)功能,防止单节点故障以及多节点同时处理一个任务。 MRS 3.3.1及之后版本Oozie默认开启HA机制,无需执行该章节操作。 对系统影响 操作过程中需要重启Ooz
Manager页面的区别和联系请参考下表: 常用操作 MRS Console FusionInsight Manager 切换子网、添加安全组规则、OBS权限控制、管理委托、IAM用户同步 支持 不支持 新增节点组、扩容、缩容、升级规格 支持 不支持 隔离主机、启动所有角色、停止所有角色 支持 支持 下载客户端、启动服务、停止服务、滚动重启服务
保障意外掉电时的数据可靠性,不论是单节点意外掉电,还是整个集群意外断电,恢复供电后系统能够正常恢复业务,除非硬盘介质损坏,否则关键数据不会丢失。 硬盘亚健康检测和故障处理,对业务不造成实际影响。 自动处理文件系统的故障,自动恢复受影响的业务。 自动处理进程和节点的故障,自动恢复受影响的业务。 自动处理网络故障,自动恢复受影响的业务。
请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 根据集群节点数优化Manager配置 以omm用户登录主管理节点。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin
三方jar包,可放置到每个节点上指定目录中,重启组件后该目录下的jar会被相应的组件程序自动加载。 放置目录为:组件安装节点的“<集群安装目录>/third_lib/<组件名>”目录。 例如: 将使用HBase服务要用到的jar包文件放入HBase节点的“${BIGDATA_HO
告警级别 是否自动清除 12037 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 异常NTP服务器的IP地址。 对系统的影响 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服
查看NameNode原生页面发现有大量的块丢失。 图1 块丢失 查看原生页面Datanode Information发现显示的DataNode节点数和实际的相差10个节点。 图2 查看DataNode节点数 查看DateNode运行日志“/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-主机名
ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节仅适用于MRS 3.1.0版本。 集群配置 登录集群Manager页面,选择“集群
ager发生故障时,可通过自动或手动的方式触发故障转移,进行Active/Standby状态切换。 在未开启自动故障转移时,YARN集群启动后,MRS集群管理员需要在命令行中使用yarn rmadmin命令手动将其中一个ResourceManager切换为Active状态。当需要
以上传Jar包至Linux环境中运行应用。 前提条件 已安装客户端时: 已安装HBase客户端。 当客户端所在主机不是集群中的节点时,需要在客户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。 未安装HBase客户端时: Linux环境已安装JDK,版本号需要和IntelliJ
登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“节点管理 > 节点名称” ,进入弹性云服务器界面。单击“远程登录”按钮,完成Hive节点的登录。 MRS3.x及后续版本: 以root用户登录已安装Hive客户端的节点。 执行以下命令,进入客户端安装目录,例如“/opt/client”。
根据使用次数,对数据节点进行排序,使用次数少的排在前面,优先选择排在前面的节点。每次选择一个节点后,计数加1,并重新排序,选择后续的节点。 扩容与Colocation分配 集群扩容之后,为了平衡地使用所有的数据节点,使新的数据节点的分配频率与旧的数据节点趋于一致,有如下两种策略可以选择,如表1所示。
Group资源软限制方案实现,Workload Group只是限制组内任务在单个BE节点上的计算资源和内存资源的使用,所以租户没有整体资源池的概念,而是在执行查询任务时,动态的在各个BE节点上进行资源分配。 因此,Doris多租户的监控和告警是节点粒度的,在服务和租户粒度上,会进行适当的聚合处理。 Doris多租户监控