检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 可能原因 Flume实例全部故障。 处理步骤 以omm用户登录Flume实例所在节点,执行ps -ef|grep "flume.role=server"命令查看当前节点是否存在flume进程。 是,执行3。
弹性云服务器的网卡需要与MRS集群在同一个网段中。 申请弹性IP,绑定新申请的弹性云主机IP,并配置安全组出入规则。 下载客户端程序,请参考下载MRS客户端。 登录客户端下载目标节点,以root用户安装集群客户端。 执行以下命令解压客户端包。 tar -xvf /opt/MRS_Services_Client
圾回收时间过长,影响ResourceManager进程正常提供服务,在访问YARN的原生界面时异常。 此时建议修改实例的内存。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > Yarn > 配置 > 全部配置 > ResourceManager
导致本地磁盘的部分热数据会移动到OBS上,影响系统的读写性能。 可能原因 ClickHouseServer节点冷热分离配置的本地磁盘容量过小。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
致。 该节点与主OMS节点NTP服务时间偏差太大。 处理步骤 检查该节点的NTP服务是否正常启动。 检查ntpd进程是否运行在告警节点上。登录告警节点,执行sudo su - root切换用户。执行以下命令,检查命令是否输出ntpd进程的信息。 ps -ef | grep ntpd
OpenTSDB样例工程。 前提条件 MRS服务集群开启了Kerberos认证,没有开启Kerberos认证的集群忽略该步骤。 操作步骤 登录MRS Manager,在MRS Manager界面选择“系统设置 > 角色管理 > 添加角色”,如图 1 添加角色所示。 图1 添加角色
开发用户用于运行样例工程。用户需要有组件权限,才能运行样例工程。 前提条件 MRS服务集群开启了Kerberos认证,没有开启Kerberos认证的集群忽略该步骤。 操作步骤 登录MRS Manager,在MRS Manager界面选择“系统设置 > 角色管理 > 添加角色”。 填写角色的名称,例如mrrole。 编
通过获取客户端的principal和keytab文件在应用程序中进行认证,用于Kerberos安全认证的keytab文件和principal文件您可以联系管理员创建并获取,具体使用方法在样例代码中会有详细说明。 目前样例代码统一调用LoginUtil类进行安全认证,支持Oracle JAVA平台和IBM JAVA平台。
通过获取客户端的principal和keytab文件在应用程序中进行认证,用于Kerberos安全认证的keytab文件和principal文件您可以联系管理员创建并获取,具体使用方法在样例代码中会有详细说明。 目前样例代码统一调用LoginUtil类进行安全认证,支持Oracle JAVA平台和IBM JAVA平台。
对于管理员创建IAM用户接口,返回如图1所示的消息头,其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 管理员创建IAM用户响应消息头 响应消息体 该部分可选。响应消息体通常以结构化格式(如JSON或XM
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致任务失败或者数据丢失。 可能原因 网络故障,导致数据无法发送。 处理步骤 以root用户登录故障节点所在主机,执行ping Doris所有节点的IP地址命令查看对端主机是否可以ping通。 是,执行4。 否,执行2。 联系网络管理员恢复网络。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前FE实例不可用,无法响应客户端请求。 可能原因 FE实例由于某种原因出现故障或被重启。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50225”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
检查网络是否断连或硬件是否故障。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。 登录主管理节点。 执行以下命令检查故障节点是否可以访问: ping 故障主机IP地址 是,执行2。 否,执行1.d。 联系运维人员查看是否为网络故障。
检查主备Manager服务器间的网络是否正常。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的备Manager IP地址。 登录主管理节点。 执行以下命令检查备Manager服务器是否可达。 ping 备Manager IP地址 是,执行2。 否,执行1.c。 联系运维人员查看是否为网络故障。
程处于D状态。 处理步骤 查看D状态进程。 打开MRS集群详情页面,在告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。 登录告警节点。 执行以下命令切换用户: sudo su - root su - omm 执行如下命令查看omm用户D状态进程号。 ps -elf
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前BE实例不可用,无法对外提供读写数据功能。 可能原因 BE实例由于某种原因出现故障或被重启。 处理步骤 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50226”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
omm用户过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 omm用户过期。 处理步骤 检查系统中omm用户是否过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l omm命令来查看当前omm用户密码设置信息。 查找“Account
信不可用,无法对服务提供管理功能。 可能原因 该主机ommdba密码过期。 处理步骤 检查系统中ommdba密码是否过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l ommdba命令来查看当前ommdba用户密码设置信息。
k失败,进而业务无法正常访问OBS。 可能原因 集群未绑定ECS委托。 ECS底层接口异常,导致请求失败。 处理步骤 确认是否绑定委托。 登录MapReduce服务管理控制台。 选择“现有集群”,单击集群名称,进入集群概览页面,在运维管理区域,查看集群是否绑定委托。 是,执行4。
造成MemArtsCC服务不可用。 可能原因 MemArtCC服务所依赖的Zookeeper服务不可用。 处理步骤 处理Zookeeper异常 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,进入ZooKeeper服务概览页面,查看ZooKeeper服务是否故障。