检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18016 ResourceManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn ResourceManager非堆内存使用率,并把实际的Yarn ResourceManager非堆内存使用率和阈值相比较。当Yarn ResourceManage
如何检查Yarn的ResourceManager配置是否正常? 本示例适用于MRS 3.x之前版本。 登录MRS Manager页面,选择“服务管理 > Yarn > 实例”。 分别单击两个ResourceManager名称,选择“更多 > 同步配置”,并选择不勾选“重启配置过期的服务或实例。”。
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群磁盘空间使用率,并把实际的HDFS集群磁盘空间使用率和阈值相比较。HDFS集群磁盘使用率指标默认提供一个阈值范围。当HDFS集群磁盘空间使用率超出阈值范围时,产生该告警。
Flink开启Checkpoint样例程序(Java) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 快照数据 该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。 下面代码片段仅为演示,完整代码参见FlinkCheckp
重启MRS集群 在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
BulkPut接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将构建的RDD写入HBase中。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表: create
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件 问题 Flink业务代码中添加了System.out.println调试信息打印,该如何查看此调试日志?避免与运行日志混在一起打印,如何将业务日志单独输出至指定文件? 回答 Flink所有的运行
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
ALM-29014 Catalog FGCT超过阈值 告警解释 系统每60秒周期性检测Catalog服务的FGC时间,当检测到的FGC时间超出阈值(连续5次检测超过12秒)时产生该告警,当FGC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29014
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件 问题 Flink业务代码中添加了System.out.println调试信息打印,该如何查看此调试日志?避免与运行日志混在一起打印,如何将业务日志单独输出至指定文件? 回答 Flink所有的运行
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
ALM-29013 Impalad FGCT超过阈值 告警解释 系统每60秒周期性检测Impalad服务的FGC时间,当检测到的FGC时间超出阈值(连续5次检测超过12秒)时产生该告警,当FGC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29013
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
配置MRS集群弹性伸缩 应用场景 本入门指导以如下业务场景为例,介绍弹性伸缩规则与资源计划均叠加使用的操作: 某项实时处理业务数据量在周一、周二和周六7:00~13:00出现规律性变化,但是数据量变化并非非常平稳。假设在周一、周二和周六7:00~13:00期间,需要Task节点的
ALM-12045 网络读包丢包率超过阈值 告警解释 系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
ALM-12172 指标上报CES失败 告警解释 集群开启指标共享后,controller周期性的收集集群指标信息并上报到CES。 告警属性 告警ID 告警级别 是否自动清除 12172 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或者系统名称 服务名 产生告警的服务名称
同步MRS集群配置 某个新的配置需要同时下发到集群所有服务,或修改某项配置后导致多个不同服务的“配置状态”为“配置过期”或“失败”时,表示这些服务的配置参数值未同步且未生效,集群管理员可以对集群执行同步配置功能,并在同步配置后重启相关服务实例,使所有服务启用新的配置参数。 前提条件