检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
理步骤处理该故障。 在告警列表中,查看该告警是否清除。 是,处理完毕。 否,执行4。 查看元数据库是否异常。 联系集群元数据库管理员查看元数据库是否有异常。 是,执行5。 否,执行6。 联系元数据库运维人员修复。元数据恢复正常后在告警列表中查看该告警是否清除。 是,处理完毕。 否,执行6。
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查是否有打开了第三方AD对接 登录FusionInsight Manager界面,单击“系统”页签。 选择“权限 > 第三方AD”,查看是否开启了第三方AD对接。
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查是否有打开了第三方AD对接 登录FusionInsight Manager界面,单击“系统”页签。 选择“权限 > 第三方AD”,查看是否开启了第三方AD对接。
系统管理员。 执行chage -l ommdba命令查看当前ommdba用户密码设置信息。 查找“Account expires”对应值,查看用户设置是否过期。 如果参数值为“never”,则代表永不过期;如果为日期值,则查看是否过期。 是,执行3。 否,执行4。 执行chage
其中消息积压的计算规则为当前Topic中所有分区的消息积压(Lag)的总和,可以参考使用KafkaUI查看当前消费情况,查看消费者组中Topic所有分区的消息积压情况,如下图所示: 创建完成后,可以在“Lag Alarms”界面查看、修改、删除Kafka消息积压告警的规则信息。 父主题: Kafka运维管理
告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”、“节点故障”告警。 是,节点间网络不互通,请联系运维人员修复。 否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台,在“现有集群”列表中选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。
检查ZooKeeper服务状态。 在FusionInsight Manager的服务列表中,查看ZooKeeper运行状态是否为“良好”。 是,执行5。 否,执行2。 在告警列表中,查看是否有“ALM-13000 ZooKeeper服务不可用”告警产生。 是,执行3。 否,执行5。
Manager的服务列表中,查看HDFS运行状态是否为“良好”。 是,执行5。 否,执行2。 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。 是,执行3。 否,执行5。 参考ALM-14000 HDFS服务不可用的处理步骤处理该故障。 等待几分钟后,在告警列表中查看“Oo
Flume运维管理 Flume常用配置参数 Flume日志介绍 查看Flume客户端日志 查看Flume客户端监控信息 停止或卸载Flume客户端 父主题: 使用Flume
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
检查是否为新创建的消费者组。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。查看当前告警详细信息,在定位信息中查看告警上报的Kafka消费者组名称,在附加信息中查看Topic名称。 根据实际情况判断消费者组是否为新创建。 是,执行3。 新创建的消费者组,新消费
处理步骤 查看告警定位信息 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选择“告警ID”为“19019”的告警,查看“定位信息”中产生该告警的服务实例和主机名。 检查主备集群RegionServer之间的网络连接。 执行ping命令,查看故障R
续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application ID
Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19035”的告警的“定位信息”中上报该告警的服务实例和主机名。 检查RegionServer堆内存配置。 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“HBase服务进程堆内存使用率超过阈值”告警产生。
WebUI”后的链接,单击“作业管理”,在作业的“操作”列选择“更多 > 作业详情”也可查看Taskmanager日志。 查看作业日志进行故障修复,或联系运维人员,并发送已收集的故障日志信息。操作结束。 若无法在Yarn页面上查看日志,可通过HDFS下载日志。 返回Manager,选择“集群 > 服务
root su - omm 使用ls命令查看DataNode数据目录中的每个目录是否存在。 是,执行7。 否,执行3.c。 使用mkdir 数据目录命令创建该目录,查看是否可以创建成功。 是,执行6.a。 否,执行3.d。 单击“告警管理”,查看是否存在告警“ALM-12017 磁盘容量不足”。
ication Queues”中查看root队列是否资源用满。 是,执行3。 否,执行4。 对Yarn服务的NodeManager实例进行扩容。扩容后,查看告警是否消除。 是,处理完毕。 否,执行6。 检查队列最大资源容量和AM最大资源百分比 查看pending任务对应的队列的资源是否用满。
确保本地PC的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src/hbase-examples”目录下的样例工程文件夹“hbase-example”。
”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。 处理步骤 如果遇到上述问题,可参考以下两种方法解决。 重新访问这个Spark应用的HistoryServer页面,即可查看到正确的页面信息。