检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常 问题背景与现象 认证异常导致提交Spark任务失败,报“Can't get the Kerberos realm”异常。 原因分析 在Driver端打印异常找不到连接HDFS的Token信息,报错如下:
告警属性 告警ID 告警级别 是否自动清除 18009 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。 可能原因 NameNode节点的CPU性能不足,导致NameNode无法及时处理消息。
A.name = B.name; 一个表大于阈值一个表小于阈值。 将小表进行BroadCast操作。 两个表的大小都大于阈值。 比较查询所涉及的字段大小与阈值的大小。 若某表中涉及字段的大小小于阈值,将该表相应数据进行广播。 若两表中涉及字段的大小都大于阈值,则不进行广播。 (可选
更多 > 重启服务”进行重启。 服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。 检查本告警是否恢复。 是,处理完毕。 否,执行11。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“HDFS”。
系统按60秒周期检测HetuEngine QAS磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置”,在服务列表下面,选择“HetuEngine > 磁盘 > QAS磁盘使用率 (QAS)”修改阈值。
在命令行终端查看样例代码中的Impala SQL所查询出的结果。 Linux环境运行成功结果会有如下信息。 Create table success! _c0 0 Delete table success! 父主题: 调测Impala应用
Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Storm”修改阈值。 当Storm Nimbus堆内存使用率小于或等于阈值时,告警恢复。
告警属性 告警ID 告警级别 是否自动清除 18017 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
MRS集群内节点上的sudo log文件是omm用户的操作记录,以方便问题的定位,用户可以清理。 因为日志占用了一部分存储空间,建议管理员清除比较久远的操作日志释放资源空间。 日志文件较大,可以将此文件目录添加到“/etc/logrotate.d/syslog”中,让系统做日志老化 ,定时清理久远的日志
告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。 用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务
告警属性 告警ID 告警级别 是否自动清除 18016 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
告警属性 告警ID 告警级别 是否自动清除 18019 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
> 更多 > 重启服务”。 服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。 检查本告警是否恢复。 是,处理完毕。 否,执行12。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的如下服务。
确认GC_PROFILE的值为custom,使GC_OPTS配置生效。单击“保存”,单击“更多 > 重启服务”重启服务。 服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。 检查本告警是否清除。 是,处理完毕。 否,执行6。 检查系统中是否有不需要的文件。 以ro
14003 重要 说明: MRS 3.1.5版本告警级别为“紧急”。 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。
告警属性 告警ID 告警级别 是否自动清除 14028 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。
e JobHistoryServer堆内存使用率和阈值相比较。当Mapreduce JobHistoryServer堆内存使用率超出阈值(默认为最大堆内存的80%)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Mapreduce”修改阈值。当MapReduce
Spark2x如何访问外部集群组件 问题 存在两个集群:cluster1 和cluster2,如何使用cluster1中的Spark2x访问cluster2中的HDFS、Hive、HBase和Kafka组件。 回答 可以有条件的实现两个集群间组件互相访问,但是存在以下限制: 仅允许访问一个Hive
过独占或共享一个服务来获取这个服务运行时需要的资源。 静态服务池简介 静态服务池用来指定服务资源的配置。 在服务级别上,静态服务池对各服务可使用的资源进行统一管理: 限制服务使用的资源总量,支持配置Flume、HBase、HDFS、IoTDB、Kafka(Kafka组件仅MRS 3