检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置MRS集群外节点用户访问普通模式集群资源 操作场景 集群安装为普通模式时,各组件客户端不支持安全认证且无法使用kinit命令,所以集群外的节点默认无法使用集群中的用户,可能导致在这些节点访问某个组件服务端时用户鉴权失败。 如果需要在集群外节点以组件用户身份访问集群资源,管理员
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中需要安装补丁的集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致。
ALM-45638 Flink作业失败重启次数超阈值 本章节仅适用于MRS 3.2.0及以后版本。 告警解释 系统以用户配置的告警周期检查Flink作业重启次数,如果重启次数超过用户配置的阈值,则发送告警。当作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45638
配置AM作业自动保留 本章节适用于MRS 3.x及后续版本集群。 配置场景 在YARN中,ApplicationMaster(AM)与Container类似,都运行在NodeManager(NM)上(本文中忽略未管理的AM)。AM可能由于多种原因崩溃、退出或关闭。如果AM停止运行
ALM-45648 RocksDB持续发生Write-Stopped 本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)
ALM-45589 ConfigNode堆内存使用率超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程堆内存使用状态,当检测到ConfigNode进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。当ConfigNode进程堆内存使用率小于阈值时,告警清除。
ALM-19009 HBase服务进程直接内存使用率超出阈值 告警解释 系统每30秒周期性检测HBase服务直接内存使用状态,当检测到HBase服务直接内存使用率超出阈值(最大内存的90%)时产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-29004 Impalad进程内存占用率超过阈值 告警解释 以30s为周期检测Impalad进程系统内存占用率,当检测到的超过默认阈值(80%)时,系统产生此告警。 当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否可自动清除
ALM-45636 Flink作业连续checkpoint失败 本章节仅适用于MRS 3.1.2及至MRS 3.3.0版本。 告警解释 系统以用户配置的告警周期检查Checkpoint连续失败次数,如果Flink作业Checkpoint连续失败次数达到用户配置的阈值,则发送告警。
Kafka 样例工程配置文件说明 Conf目录下各配置文件及重要参数配置说明。 Producer API配置项。 表1 producer.properties文件配置项 参数 描述 备注 security.protocol 安全协议类型 生产者使用的安全协议类型,当前Kerber
ALM-45430 ClickHouse扩容节点上同步权限元数据失败 本章节仅适用于MRS 3.1.2及之后版本。 告警解释 ClickHouse扩容时同步用户和权限信息失败时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 45430 重要 否 告警参数 参数名称 参数含义
使用前必读 欢迎使用MapReduce服务(MapReduce Service,MRS)。MRS服务提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。 您可以使用本文档提供API对MRS服务进行相关操作,如
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
执行大数据量的shuffle过程时Executor注册shuffle service失败 问题 执行超过50T数据的shuffle过程时,出现部分Executor注册shuffle service超时然后丢失从而导致任务失败的问题。错误日志如下所示: 2016-10-19 01:33:34
ALM-16047 HiveServer已从Zookeeper注销 告警解释 系统每60秒周期性检测Hive服务,若Hive在Zookeeper上的注册信息丢失,或者Hive无法连接上Zookeeper,将会发出告警。 告警属性 告警ID 告警级别 是否自动清除 16047 重要
ALM-14027 DataNode磁盘故障 告警解释 系统每60秒周期性检测DataNode节点上的磁盘状况,当检测到有磁盘出现故障时产生该告警。 当DataNode上故障磁盘都恢复正常后,手动清除该告警,并重启该DataNode。 告警属性 告警ID 告警级别 是否自动清除 14027
ALM-45636 Flink作业连续checkpoint失败次数超阈值 本章节仅适用于MRS 3.3.1及以后版本。 告警解释 系统以用户配置的告警周期检查CheckPoint连续失败次数,如果FlinkServer作业CheckPoint连续失败次数达到用户配置的阈值,则发送
ALM-19024 RegionServer RPC响应时间的P99超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC请求响应时间的P99。当检测到某个RegionServer上的RPC请求响应时间的P99连续10次超出阈值时产生该告警。
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。
Loader常用参数 参数入口 参数入口,请参考修改集群服务配置参数。 参数说明 表1 Loader常用参数 配置参数 说明 默认值 范围 mapreduce.client.submit.file.replication MapReduce任务在运行时依赖的相关job文件在HDF