检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 相关参数获取方法如下: 在操作系统中执行以下命令采集数据: iostat -x -t 1 1 其中: “avgqu-sz”为磁盘队列深度。 “r/s”和“w/s”之和为“iops”。 “rkB/s”和“wkB/s”之和为带宽。 “%util”为“ioutil”。
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测损坏的块数量,并把损坏的块数量和阈值相比较。损坏的块数量指标默认提供一个阈值范围。当检测到损坏的块数量超出阈值范围时产生该告警。 当损坏的块数量小于或等于阈值时,告警恢复。建议使用命令(hdfs
Flume实例全部故障。 处理步骤 以omm用户登录Flume实例所在节点,执行ps -ef|grep "flume.role=server"命令查看当前节点是否存在flume进程。 是,执行3。 否,重启Flume故障实例或Flume服务,执行2。 在告警列表中查看“Flume服务不可用”告警是否清除。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因 FE堆内存过小。 处理步骤 检查FE堆内存使用率。 登录FusionInsight
> 告警 > 告警”,弹出告警页面,选中“告警ID”为“45586”的告警,在该页面的告警详情里查看“定位信息”中的角色名并确认实例的IP地址。 选择“集群 > 待操作集群的名称 > 服务 > IoTDB > 实例”,单击告警上报的IoTDBServer,进入实例“概览”页面。单击图表区域右上角的下拉菜单,选择“定制
Presto Worker线程数超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性
ALM-45333 Presto Worker3线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
ALM-45334 Presto Worker4线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
活动的DataNode实例数必须大于“dfs.replication”的值。 操作步骤 检查环境 以root用户登录安装HDFS客户端的服务器,执行以下命令配置环境变量。 source HDFS客户端安装目录/bigdata_env 如果集群为安全模式,执行以下命令认证用户身份。
然后单击,进入“文件浏览器”页面。您可以进行以下操作。 查看文件和目录 默认显示登录用户的目录及目录中的文件,可查看目录或文件的“名称”、“大小”、“用户”、“组”、“权限”和“日期”信息。 单击文件名,可查看文本文件的文本信息或二进制数据。支持编辑文件内容。 如果文件和目录数量比较多,可以在搜索框输入关键字,搜索特定的文件或目录。
活动的DataNode实例数必须大于“dfs.replication”的值。 操作步骤 检查环境 以root用户登录安装HDFS客户端的服务器,执行以下命令配置环境变量。 source HDFS客户端安装目录/bigdata_env 如果集群为安全模式,执行以下命令认证用户身份。
NodeManager磁盘可用率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测NodeManager各个节点的可用磁盘空间,并把磁盘可用率和阈值相比较。“NodeManager磁盘可用率”指标默认提供一个阈值范围。当检测到实际“NodeManager磁盘可用率”的值低于阈值范围时产生该告警。
driver.memory和spark.executor.memory,根据作业的需要调大或者调小该值,具体以提交的Spark作业的复杂度和内存需要为参考(一般调大)。 如果使用到SparkJDBC作业,搜索并修改SPARK_EXECUTOR_MEMORY和SPARK_DRIVER
本入门指导以如下业务场景为例,介绍弹性伸缩规则与资源计划均叠加使用的操作: 某项实时处理业务数据量在周一、周二和周六7:00~13:00出现规律性变化,但是数据量变化并非非常平稳。假设在周一、周二和周六7:00~13:00期间,需要Task节点的数量范围是5~8个,其他时间需要Task节点数量是2~4个。
以下说明进行调大。 HMaster的GC参数配置建议 建议“-Xms”和“-Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“-XX:NewSize”大小的时候,建议把其设置成和“-XX:MaxNewSize”相同,均为“-Xmx”大小的1/8。 当
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检
[编号].log.zip”。最多保留最近的20个压缩文件,压缩文件保留个数和压缩文件阈值可以配置。 表1 Hive日志列表 日志类型 日志文件名 描述 运行日志 /fe/fe.out 标准/错误输出的日志(stdout和stderr) /fe/fe.log 主日志,包括除fe.out外的所有内容