检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置HDFS DataNode数据均衡 操作场景 本章节适用于MRS 3.x及后续版本。 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地
MRS 2.1.0.1补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.1 发布时间 2020-02-12 解决的问题 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。
原因分析 当前登录的用户不具有Hive的admin角色的权限。 解决方案 登录Manager。 MRS 3.x之前版本,执行7。 MRS 3.x及之后版本,选择“集群 > 服务 > Hive”,在服务“概览”页面右上角单击“更多”,查看“启用Ranger鉴权”是否置灰。 是,执行2。 否,执行7。
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor? 问题 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为MRS 1.8.2及之后版本的集群上的所有Master节点执行步骤1~2。 再参考配置跨集群互信配置。 检查互信是否成功。 成功,则配置结束。 失败,请刷新客户端配置后再检查互信是否成功,若依然不成功请联系运维人员处理。 若已经配置互信场景: 登录MRS 1.8.2及之后版本的集群上的Master节点。
备份问题节点数据库下所有表数据到其他目录。 备份表数据: MRS 3.0.5及之前版本 cd /srv/BigData/data1/clickhouse/data/数据库名 mkdir -p 备份目录/data1 mv {表名} 备份目录/data1/ MRS 3.1.0及之后版本 head -1 /srv/Big
ALM-12012 NTP服务异常(2.x及以前版本) 告警解释 当节点NTP服务无法与主OMS节点NTP服务正常同步时间时产生该告警。 当节点NTP服务与主OMS节点NTP服务正常同步时间时恢复该告警。 告警属性 告警ID 告警级别 可自动清除 12012 严重 是 告警参数 参数名称
DBService备份任务执行失败 问题背景与现象 查看备份文件路径中没有DBService的备份文件。 ls /srv/BigData/LocalBackup/default_20190720222358/ -rlth 图1 查看备份文件 原因分析 查看DBService的备份
户同步”右侧的“同步”进行IAM用户同步)。 MRS 3.x及后续版本,登录FusionInsight Manager,然后选择“集群 > 待操作的集群名称 > 服务 ”。 登录Storm WebUI: MRS 2.x及之前版本:选择“Storm”,在“Storm 概述”的“Storm
配置HetuEngine查询容错执行能力 本章节适用于MRS 3.3.0及以后版本。 HetuEngine查询容错执行能力介绍 当集群中的节点因网络、硬件或软件问题发生故障时,在故障节点上运行的所有查询任务都将丢失。这可能会严重影响集群生产力并造成资源浪费,尤其对于长时间运行的查
HDFS上设置配额导致HBase启动失败 问题现象 HBase启动失败。 原因分析 查看HMaster日志信息(“/var/log/Bigdata/hbase/hm/hbase-omm-xxx.log”),出现如下异常,The DiskSpace quota of /hbase is
Task中从本地磁盘或者Distributed Cache中按桶一个一个读取小表内容,然后与大表做匹配直接得到结果并输出。 Join顺序优化 当有3张及以上的表进行Join时,选择不同的Join顺序,执行时间存在较大差异。使用恰当的Join顺序可以有效缩短任务执行时间。 Join顺序原则:
Reduce过程分为三个不同步骤:Copy、Sort(实际应当称为Merge)及Reduce。在Copy过程中,Reducer尝试从NodeManagers获取Maps的输出并存储在内存或硬盘中。紧接着进行Shuffle过程(包含Sort及Reduce),这个过程将获取到的Maps输出进行存储并有序
ALM-47001 MemArtsCC服务不可用 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 告警模块按60秒周期检测MemArtsCC所依赖ZooKeeper服务状态,如出现Zookeeper服务不可用则产生该告警。 当系统检查ZooKeeper服务正常,告警自动清除
Kerberos(MRS 3.x及之后版本)管理员“kadmin”的密码,以提升系统运维安全性。 修改该密码会导致已经下载的用户凭证不可用,请修改该密码后重新下载认证凭据并替换旧凭据。 前提条件 MRS 2.x及之前版本,已在Master1节点准备客户端。 MRS 3.x及之后版本,已在集群内
原因分析 Flume发送数据到Kafka失败,可能原因是Flume侧问题或者Kafka侧问题。 Manager界面查看当前Kafka状态及监控指标。 MRS Manager界面操作:登录MRS Manager,选择 “服务管理 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。
Task中从本地磁盘或者Distributed Cache中按桶一个一个读取小表内容,然后与大表做匹配直接得到结果并输出。 Join顺序优化 当有3张及以上的表进行Join时,选择不同的Join顺序,执行时间存在较大差异。使用恰当的Join顺序可以有效缩短任务执行时间。 Join顺序原则:
进程被终止如何定位原因 问题背景与现象 在某环境出现DataNode异常重启,且确认此时未从页面做重启DataNode的操作,需要定位是什么进程终止了DataNode服务端进程。 原因分析 常见的进程被异常终止有2种原因: Java进程OOM被终止 一般Java进程都会配置OOM
域名。 获取方式请参考终端节点及区域。 Project_Id 项目ID,在大多数API接口调用时需要配置在uri中,用以识别不同的项目。 AK/SK 访问密钥对,包含密钥ID与密钥。AK/SK用于对请求内容进行签名。 URI API接口的调用路径及参数。 请参考各云服务的详细接口
运行Spark任务发现大量shuffle结果丢失 问题现象 Spark任务运行失败,查看任务日志发现大量打印shuffle文件丢失。 原因分析 Spark运行的时候会将临时产生的shuffle文件放在executor的临时目录中,方便后面获取。 而当某个executor异常退出时