检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机名 产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
echo ${DBSERVICE_DATA_DIR} 执行df -h命令,查看系统磁盘分区的使用信息。 查看DBservice数据目录空间是否已满。 是,执行3.f。 否,执行4。 扩容升级。 磁盘扩容后,等待2分钟检查告警是否清除。 是,操作结束。 否,执行4。 收集故障信息。
从“定位信息”中获取“主机名”和“设备分区名”,其中“主机名”为故障告警的节点,“设备分区名”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失进行处理,处理完成后,本告警即可自动消除。
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
主机名 产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
主机名 产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Doris元数据所占磁盘空间越来越大,最终可能导致服务异常。 可能原因 Doris服务异常。 处理步骤 检查Doris服务是否正常 登录FusionInsight
备份包,在系统出现异常时,无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。 处理步骤 查看磁盘空间是否不足 在MRS Manager界面,单击“告警管理”。 在告警列表中单击该告警的,从“定位信息”处获得“任务名”。 选择“系统设置
”用户修改密码需要重新下载keytab文件。 分析告警 导出指定周期内产生的告警并分析。 扫描磁盘 对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 统计存储 分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 记录变更 安排并记录对
取针对性的优化措施。 监控资源利用率,评估当前配置是否过高。例如:CPU、内存、云硬盘、带宽等资源的利用率。 监控闲置的资源,避免浪费。例如:未挂载的云硬盘、未绑定的EIP等。 计费模式优化 不同类型的业务对资源使用周期有不同的要求,为每一类业务确定合适的计费模式,灵活组合以达到最优效果。
进程故障”告警是否已清除。 是,处理完毕。 否,执行2.a。 检查磁盘空间是否不足。 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。 是,执行2.b。 否,执行3。 按ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
请根据以下业务场景对可靠性和性能要求进行评估,采用合理参数配置。 对于价值数据,这两种场景下建议Kafka数据目录磁盘配置raid1或者raid5,从而提高单个磁盘故障情况下数据可靠性。 参数配置项均为Topic级别可修改的参数,默认采用服务级配置。 可针对不同Topic可靠性要
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
Flume开源增强特性 Flume开源增强特性 提升传输速度。可以配置将指定的行数作为一个Event,而不仅是一行,提高了代码的执行效率以及减少写入磁盘的次数。 传输超大二进制文件。Flume根据当前内存情况,自动调整传输超大二进制文件的内存占用情况,不会导致Out of Memory(OOM)的出现。
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 占用系统资源,业务进程响应变慢。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态。 处理步骤 查看D状态进程。 打开MRS集群详情页面,在告警列表中,单击此告警所
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS文件数过多,磁盘存储不足可能造成数据入库失败。对HDFS系统性能产生影响。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中是否有不需要的文件。 在集群节点使用客户端,执行hdfs
主机名 产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查主备节点磁盘空间 分别登录主备OMS节点,查看磁盘使用信息。 执行以下命令,查看“/”目录的可用空间是否大于30GB。 df -h / 否,清理磁盘空间。 是,检查结束。 检查集群是否已经支持root补丁特性 集群是否已经安装了MRS