华为云用户手册

  • MRS 集群节点配置 表3 集群节点信息 参数 描述 示例 CPU架构 MRS集群节点的CPU架构类型,可选择“x86计算”或者“鲲鹏计算”。MRS 3.1.0及MRS 3.1.5版本无该参数。 x86计算 常用模板 当“集群类型”选择“自定义”时该参数有效,常用模板包含“管控合设”、“数据分设”和“管控分设”,具体详情请参考MRS集群部署类型说明选择。 管控合设 节点组名称 设置集群内节点组的名称。 Master节点组名称固定为“master_node_default_group”。 系统会根据集群所包含的组件自动创建对应Core节点组,例如当选择“ClickHouse”组件时,系统会添加ClickHouse节点组,并在该节点组默认部署ClickHouseServer角色。 “集群类型”为“自定义集群”时,其他节点组名称可自定义。 当集群数据量变化不大而集群业务处理能力需求变化比较大,可选择手动添加Task节点组,参考创建MRS集群时手动添加Task节点组。 node_group_1 节点类型 “集群类型”为“自定义集群”时,可手动选择非Master节点组的节点类型,如果指定节点组类型为Task,则该节点组仅能部署NodeManager角色(除节点必备角色外)。 Core 付费类型 MRS集群中节点的计费模式。 Master和Core节点组的计费模式与集群所选计费模式保持一致。 Task节点组的计费模式固定为“按需计费”。 按需计费 节点数 配置各节点组内的节点个数。 Master节点组的节点数量最少为3个,最多不超过9个。 Core节点组至少存在一个,Core节点和Task节点的数量之和不能超过10000个。 “集群类型”为“自定义集群”时,可以单击“添加节点组”,添加多个节点组。 说明: 过小的节点容量会导致您的集群运行缓慢,而过大的节点容量会产生不必要的成本,请根据您要处理的数据对集群节点数量进行调整。 - 实例规格 选择MRS集群节点的实例规格,可单击进行调整。 关于MRS集群节点规格的详细说明可参考MRS集群节点规格说明。 说明: 节点的实例规格配置越高,数据处理分析能力越强,集群所需费用也越高。 不同可用区内的实例规格可能有差异,如果当前可用区下的实例规格不满足需求,可尝试切换其他可用区。 当Core节点规格选择为HDD磁盘时,MRS无需为数据磁盘付费,但E CS 需要为此付费。 当Core节点规格选择非HDD磁盘时,Master节点和Core节点的磁盘类型取决于数据磁盘。 当节点的实例规格选项后标示“已售罄”时,将无法购买此规格的节点,请选择其他规格节点进行购买。 Master节点中的4核8GB规格不在SLA售后范围内,仅适用于测试环境,不建议用于生产环境。 MRS 3.x及之后版本集群Master节点规格不能小于64GB。 - 系统盘 节点系统盘的存储类型和存储空间,可根据需要进行调整,更多MRS集群存储说明请参考磁盘角色。 - 数据盘 节点数据盘的存储类型和存储空间,为增大数据存储容量,创建集群时可同时添加磁盘,每个Core或者Task节点最多支持添加10块磁盘,更多MRS集群存储说明请参考磁盘角色。 - LVM 仅当创建流式Core节点时,该参数在流式Core节点有效。单击该参数以开启或关闭磁盘LVM管理。MRS 3.x及之后版本不支持该参数。 启用逻辑卷管理(LVM)时,会将节点中所有磁盘以逻辑卷的方式挂载,能够更加合理的规划磁盘,避免磁盘不均匀的问题,提升系统的稳定性。 不开启 拓扑调整 “集群类型”为“自定义集群”时,可手动调整集群内各组件在节点组的部署情况。 设置“拓扑调整”为“开启”,然后根据业务需要调整实例部署方式,具体说明请参见自定义集群拓扑调整说明。 不开启
  • 查看MRS集群创建失败任务 如果集群创建失败后,失败任务会自动转入“失败任务管理”页面。 在集群列表页面单击进入“失败任务管理”页面,在“任务状态”列中,将鼠标移动到任务状态上可以查看到失败原因。 MRS集群创建失败错误码列表如表6所示。 表6 错误码 错误码 说明 MRS.101 用户请求配额不足,请联系客服提升配额。 MRS.102 用户Token为空或不合法,请稍后重试或联系客服。 MRS.103 用户请求不合法,请稍后重试或联系客服。 MRS.104 用户资源不足,请稍后重试或联系客服。 MRS.105 现子网IP不足,请稍后重试或联系客服。 MRS.201 因ECS服务导致失败,请稍后重试或联系客服。 MRS.202 因 IAM 服务导致失败,请稍后重试或联系客服。 MRS.203 因VPC服务导致失败,请稍后重试或联系客服。 MRS.400 MRS内部出错,请稍后重试或联系客服。
  • 自定义购买MRS集群 进入购买MRS集群页面。 在购买集群页面,选择“自定义购买”页签。 创建集群时需要注意配额提醒。当资源配额不足时,建议按照提示申请足够的资源,再创建集群。 在“基础配置”区域,设置MRS集群基础信息。 计费模式:集群的计费模式,MRS提供“包年/包月”与“按需计费”两种计费模式。 区域:待创建资源所在的区域信息,不同区域的资源之间内网不互通,请选择靠近您的区域,可以降低网络延时、提高访问速度。 根据界面提示,配置MRS集群信息。 创建集群时,您需要对集群的版本信息、网络信息、节点规格信息及数量以及其他高级配置功能进行配置。 MRS集群版本配置 MRS集群网络配置 MRS集群节点配置 MRS集群其他配置 集群信息全部配置完成后,单击“立即购买”。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。购买集群后,不支持修改。 如果您对价格有疑问,可以单击页面左下角“了解计费详情”,根据计费详情来了解产品价格。 若您选择“按需计费”时,可能因为冻结保证金失败或者账号可能存在风险导致下单失败,请联系技术支持处理。 单击“返回集群列表”,可以查看到集群创建的状态。 集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。 MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。 集群创建的状态过程请参见表1中的“状态”参数说明。
  • 查看静态资源(2.x及之前版本) 在MRS Manager,单击“系统设置”,在“资源管理”区域单击“静态服务池”。 单击“状态”。 查看系统资源调整基数。 “系统资源调整基数”表示集群中每个节点可以被集群服务使用的最大资源。如果节点只有一个服务,则表示此服务独占节点可用资源。如果节点有多个服务,则表示所有服务共同使用节点可用资源。 “CPU(%)”表示节点中服务可使用的最大CPU。 “Memory(%)”表示节点中服务可使用的最大内存。 查看集群服务资源使用状态。 在图表区域的服务选择框中选择“所有服务”,则“图表”中会显示服务池所有服务的资源使用状态。 “生效的配置组”表示集群服务当前使用的资源控制配置组。默认情况下每天所有时间均使用“default”配置组,表示集群服务可以使用节点全部CPU,以及70%的内存。 查看单个服务资源使用状态。 在图表区域的服务选择框中选择指定服务,“图表”中会显示服务池此服务的资源使用状态。 用户可以选择页面自动刷新间隔的设置。 在“时间区间”选择需要查看服务资源的时间段。 单击“查看”可以查看相应时间区间的服务资源数据。 自定义服务资源报表。 单击“定制”,勾选需要显示的服务源指标。 单击“确定”保存并显示所选指标。 单击“清除”可批量取消全部选中的指标项。 导出监控指标报表。 单击“导出”,Manager将生成指定时间范围内、已勾选的服务资源指标报表文件,请选择一个位置保存,并妥善保管该文件。 如果需要查看指定时间范围的监控指标对应的分布曲线图,请单击“查看”,界面将显示用户自定义时间范围内选定指标的分布曲线图。
  • 创建集群时开启安全通信 登录MRS管理控制台。 单击“购买集群”,进入购买集群页面。 在购买集群页面,选择“快速购买”或“自定义购买”。 参考快速购买MRS集群或自定义购买MRS集群配置集群信息。 在“通信安全授权”栏,勾选通信安全授权。 图1 通信安全授权 单击“立即购买”创建集群。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。
  • 集群创建成功后关闭安全通信 登录MRS管理控制台。 在现有集群列表中,单击待关闭安全通信的集群名称。 系统跳转至该集群详情页面。 图2 通信安全授权 单击“通信安全授权”右侧的开关关闭授权,在弹出窗口单击“确定”。 关闭授权后将导致集群状态变更为“网络通道未授权”,集群部分功能不可用,请谨慎操作。 图3 关闭通信安全授权 若用户已开启敏感操作保护(详见IAM服务的敏感操作),则输入选择的对应验证方式获取的验证码进行进行验证,避免误操作带来的风险和损失。 图4 身份验证
  • HDFS对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 在hdfs命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 例如,执行以下命令访问“mrs-word001”并行文件系统,返回文件列表即表示访问OBS成功,如图1所示: hadoop fs -ls obs://mrs-word001/ 图1 Hadoop验证返回文件列表 使用以下命令上传客户端节点“/opt/test.txt”文件到OBS文件系统路径下。 hdfs dfs -put /opt/test.txt obs://OBS并行文件系统名称/路径 OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/HDFS/hadoop/etc/hadoop vi log4j.properties 在文件中添加OBS日志级别配置: log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 可执行以下命令查看: tail -4 log4j.properties 图2 查看日志级别
  • MRS 3.1.2-LTS.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.2-LTS.0.2 发布时间 2022-10-31 解决的问题 MRS 3.1.2-LTS.0.2 修复问题列表: 解决异常导致Map数量和Reduce数量都为0时,中断任务问题 解决Hive向量化if语句中Output column number expected to be 0 when isRepeating报错问题 解决Hive向量化if语句中由于数据被覆盖导致数据错误和NPE问题 解决开启向量化时,str_to_map函数执行长时间异常问题 解决Hive开启向量化参数后使用split函数执行MR任务效率很低问题 解决Hive开启向量化后查询包含nvl函数和decimal(10,5)字段类型的表报错问题 解决Tez分区空目录报错,报目录不存在问题 解决MR任务提交慢问题 解决Spark2x创建UDF的jar包放到OBS路径上会查询UDF报错 解决Alluxio jar包冲突问题 解决Executor日志滚动不释放问题 解决Hive元数据库查询网络阻塞问题 解决MRS对接DCS做缓存,缓存键一天多次被清空问题 解决CBG访问OBS概率性无权限问题 解决长时间使用客户端出现死锁问题 解决Yarn运行偶现RM主备切换问题 解决Spark SQL外表动态分区执行insert overwrite报错问题 解决周期清理任务清理.hive-staging时,查询数据库失败问题 解决NameNode在大量删除操作的时候会出现RPC请求处理慢的问题 解决Hive配置Redis缓存频繁访问表key导致Redis热键问题 解决磁盘写速率和磁盘读速率两个指标无法正常上报问题 解决查看指定时间段内的资源概况,监控数据部分缺失问题 解决NameNode退服缓存残留问题 解决Metastore监控指标缺失问题 解决认证krb_test_user失败问题 解决Yarn所有业务中断,报错Timer already cancelled问题 解决实例配置页面无单位转换问题 解决相同AZ下,扩容的节点返回的AZ有误问题 解决[YARN-10854]问题 添加自定义的超时推测机制 使hive.mapreduce.per.task.max.splits适用于Tez GetSplit的listStatus优化 适配hive submit job阶段的内存限制 Superior调度性能提升 物理资源感知特性 ORC合并文件时从文件中读取ORC列压缩属性 Hiveserver堆内存监控限制 大数据量场景,Hive分批加载元数据,提升Hiveserver容错能力 Hive支持Redis缓存连接失败重试 支持OBSA客户端数据监控上报 支持OBS流控重试机制 pms性能优化 mrs-obs-provider的缓存过期优化 优化删除分区的逻辑 Yarn的refresh node速度优化 删除无效告警 补丁兼容关系 MRS 3.1.2-LTS.0.2补丁包中包含所有MRS 3.1.2-LTS版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 MRS 3.1.2-LTS.0.3补丁安装后,目录“/srv/BigData/data1/nm/localdir/filecache/”下的log4j旧版本的包,需要重新提交相关的yarn作业,才会加载新的log4j的包。 MRS 3.1.2-LTS版本的补丁安装过程中会自动重启 OMS ,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.1.2-LTS版本的补丁安装完成后需要在 FusionInsight Manager Web界面重启Flink、Hadoop、HBase、HDFS、Hive、MapReduce、Meta、Spark2x、Ranger和Yarn服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。
  • MRS 3.1.2-LTS.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.2-LTS.0.3 发布时间 2022-12-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.0.3 修复问题列表: 修复log4j漏洞(CVE-2021-44228),log4j升级到2.17.2版本 包含MRS 3.1.2-LTS.0.2修复问题 补丁兼容关系 MRS 3.1.2-LTS.0.3补丁包中包含所有MRS 3.1.2-LTS版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 卸载补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面的“集群组件补丁”页签,在操作列表中单击待卸载补丁名称后的“卸载”,卸载目标补丁。 在弹出的说明窗口中勾选说明信息,并单击“是”,等待补丁卸载成功。 按照补丁说明进行重启组件和卸载客户端补丁操作。 若集群中存在被隔离主的机,集群中被隔离的主机节点不会进行补丁卸载,卸载完成后补丁状态更新为部分卸载成功。隔离节点修复并取消隔离后,可以再次点击“卸载”,此时补丁卸载仅对取消隔离的节点实施。对于MRS 3.x之前的版本,可参考修复隔离MRS集群主机补丁进行操作。
  • MRS 3.1.5.0.1补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.1.5.0.1 发布时间 2023-05-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz,补丁下载地址请参考补丁下载地址。 大数据组件 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.1补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.5.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.5.0.2 发布时间 2023-08-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持安装root权限的补丁。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.2补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz
  • 安装补丁的影响 MRS 3.1.5版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换。 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力。 MRS 3.1.5.0.1及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 支持EVS磁盘分区容量扩容。 MRS 3.1.5.0.3 及之后的补丁版本中diskmgt服务会检测EVS磁盘(受diskmgt服务监控的磁盘)容量是否增加,如果有增加将则会进行该磁盘下分区(单个分区独占磁盘容量)容量和文件系统的扩容,达到自动扩充磁盘分区存储容量的能力。
  • MRS 3.1.5.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.5.0.3 发布时间 2023-11-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 安装MRS 3.1.5.0.3补丁前,需要先安装MRS 3.1.5.0.2补丁,以支持root权限的补丁能力。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 支持EVS磁盘分区容量扩容。 支持D系列磁盘热插拔。 支持运维巡检特性。 支持监控指标上报 CES 。 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.3补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装完成后必须的手动操作 MRS 3.1.5.0.1版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启Yarn、HDFS和 MapReduce服务 ,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.2版本的补丁安装/卸载完成后不需要重启大数据组件。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.5.0.1打补丁升级到MRS 3.1.5.0.2,需要重启MRS 3.1.0.0.2补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 MRS 3.1.5.0.3版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启ClickHouse、HDFS、Kafka、Kudu、MapReduce、Yarn和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.3版本的补丁安装完成后,如需对接CES,请联系运维处理。
  • 禁用系统创建的路由信息步骤 以omm用户登录到集群主管理节点。执行以下命令,禁用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh disable Deactivating Route. Route operation (disable) successful. 执行以下命令,查看运行结果。 ip rule list 0:from all lookup local 32766:from all lookup main 32767:from all lookup default 执行以下命令,输入root用户密码,切换到root用户下。 su - root 分别执行以下命令,手动创建新的WS浮动IP路由信息。 ip route add WS浮动IP网段号/WS浮动IP子网掩码 scope link src WS浮动IP dev WS浮动IP对应网卡 table om_rt ip route add default via WS浮动IP网关 dev WS浮动IP对应网卡 table om_rt ip rule add from WS浮动IP table om_rt 例如: ip route add 192.168.0.0/255.255.255.0 scope link src 192.168.0.117 dev eth0:ws table om_rt ip route add default via 192.168.0.254 dev eth0:ws table om_rt ip rule add from 192.168.0.117 table om_rt 当前网络的IP地址模式为IPv6时,应执行ip -6 route add命令。 分别执行以下命令,手动创建新的ntp服务路由信息。未配置外部NTP时钟源时,跳过此步骤。 ip route add default via NtpIP网关 dev 本机IP对应网卡 table ntp_rt ip rule add to ntpIP table ntp_rt 本机IP对应网卡是指可与NTP服务器所在网段互通的网卡。 例如: ip route add default via 10.10.100.254 dev eth0 table ntp_rt ip rule add to 10.10.100.100 table ntp_rt 执行以下命令,查看运行结果。 如下例,如产生路由表名为“om_rt”和“ntp_rt”的路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 启用系统创建的路由信息步骤 以omm用户登录到主管理节点。 执行以下命令,启用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh enable Activating Route. Route operation (enable) successful. 执行以下命令,查看运行结果。 如下例,如产生路由表名为“ntp_rt”和“om_rt”的两条路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份HBase元数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 检查HBase元数据备份文件保存路径。 恢复HBase元数据需要先停止HBase服务。
  • 操作场景 为了确保HBase元数据(主要包括tableinfo文件和HFile)安全,防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manager创建恢复HBase任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。 建议一个恢复任务只恢复一个组件的元数据,避免因停止某个服务或实例影响其他组件的数据恢复。同时恢复多个组件数据,可能导致数据恢复失败。 HBase元数据不能与NameNode元数据同时恢复,会导致数据恢复失败。
  • 自定义购买专属云MRS集群 登录MRS管理控制台。 单击“购买集群”,进入“购买集群”页面。 在购买集群页面,选择“自定义购买”页签。 在“基础配置”区域,设置MRS集群基础信息。 计费模式:选择“包年/包月”模式。 区域:待创建资源所在的区域信息,不同区域的资源之间内网不互通,请选择靠近您的区域,可以降低网络延时、提高访问速度。 根据界面提示,配置MRS集群信息。 创建集群时,您需要对集群的版本信息、网络信息、节点规格信息及数量以及其他高级配置功能进行配置。 MRS集群版本配置 MRS集群网络配置 MRS集群节点配置 配置节点磁盘类型时,根据磁盘使用的存储资源是否独享,磁盘划分为“云硬盘”、“专属分布式存储”。 云硬盘:提供规格丰富、安全可靠、可弹性扩展的硬盘资源,满足不同性能要求的业务场景。 如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。 专属分布式存储:为用户提供独享的存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。 如果您在专属分布式存储服务页面申请了存储池,可以选择“专属分布式存储”,在已申请的存储池中创建磁盘。 MRS集群其他配置 单击“立即购买”。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群,集群购买成功后不支持修改Kerberos认证模式。 如果您对价格有疑问,可以单击页面左下角“了解计费详情”,根据计费详情来了解产品价格。 单击“返回集群列表”,可以查看到集群创建的状态。 集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。 集群创建的状态过程请参见表1中的“状态”参数说明。 MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。
  • 转换MRS按需集群为包周期集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要转包周期的集群对应的“操作”列中,单击“转包周期”。 确定转包周期集群信息,并单击“是”。 进入用户中心,选择续费时长后单击“提交”,提交订单。 订单提交完成后,集群状态由“运行中”更新为“转包周期中”。 订单支付成功后,集群开始进行转包周期流程,待集群转包周期成功后,集群状态更新为“运行中”。 转包周期后集群原有Task节点计费类型保持按需计费,集群在转包周期过程中已配置的弹性伸缩规则不触发新任务,请选择恰当的时间进行该操作。
  • 快速购买专属云MRS集群 进入购买MRS集群页面。 在购买集群页面,选择“快速购买”页签。 参考下列参数说明配置集群基本信息。 表1 MRS集群配置参数 参数 描述 示例 计费模式 集群的计费模式,MRS只支持“包年/包月”模式。 包年/包月 区域 待创建资源所在的区域信息,不同区域的资源之间内网不互通,请选择靠近您的区域,可以降低网络延时、提高访问速度。 - 集群名称 MRS集群名称,可以设置为系统默认名称,但为了区分和记忆,建议带上项目拼音缩写或者日期信息等。 集群创建成功后,您也可以在集群列表中手动修改集群名称。 mrs-test 集群类型 根据业务需要选择合适的MRS集群类型。 分析集群:用于离线数据分析场景,对海量数据进分析处理,形成结果数据,主要包含Hadoop、Spark、HBase、Hive、Flink、Oozie、Tez等数据分析类组件。 流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提供丰富的组件搭配,可自行选择对应版本MRS集群所支持的所有组件。 自定义 版本类型 MRS提供了LTS版与普通版两种类型的集群,不同版本提供的组件有所不同,可根据需要选择版本类型。 LTS版:集群提供更强的高可靠和容灾能力,融入了MRS服务自研组件,提供长期的支持和演进。 普通版:主要依托开源组件的能力,融入了MRS服务自研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。 MRS 3.2.0-LTS.1 组件选择 基于系统预置的集群模板选择要购买的集群组件。 HBase查询集群 可用区 当前区域内,待创建资源所归属的可用区,可用区是在同一区域下,电力、网络隔离的物理区域。 说明: 当您为IES购买MRS时,请选择可用区为“边缘可用区”。 可用区1 虚拟私有云 MRS集群节点所归属的虚拟私有云网络,如果没有可用的虚拟私有云,请单击“查看虚拟私有云”进入网络控制台,创建一个新的虚拟私有云。 - 子网 虚拟私有云网络内的子网信息,如果没有可用的子网,请单击“查看子网”进入网络控制台,创建一个新的子网。 - 集群节点 MRS集群内节点的规格信息及数量配置。 MRS 3.x及之后版本集群Master节点规格不能小于64GB。 根据自身需要选择集群节点规格数量。 Kerberos认证 MRS集群中各组件是否启用Kerberos认证。Kerberos认证开启时,用户需要通过认证后才可以访问组件对应资源。 购买集群后,不支持修改。 开启Kerberos认证 用户名 MRS集群Manager及节点的默认登录用户,admin用户用于登录集群的Manager管理界面,root用户为集群内节点的操作系统管理用户,用于节点登录。 - 密码/确认密码 设置root用户和admin用户密码,该密码由用户自定义,请妥善保管。 - 企业项目 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理,您可以选择系统定义的企业项目default或者创建自己的企业项目。 default 通信安全授权 MRS管理控制台需要直接访问部署在用户VPC内的大数据组件时需要开通相应的安全组规则,详情说明请参考配置MRS集群安全通信授权。 勾选授权 单击“立即购买”。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群,集群购买成功后不支持修改Kerberos认证模式。 如果您对价格有疑问,可以单击页面左下角“了解计费详情”,根据计费详情来了解产品价格。 单击“返回集群列表”,可以查看到集群创建的状态。 集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。 集群创建的状态过程请参见表1中的“状态”参数说明。 MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。
  • 场景二:单独使用资源计划 当数据量以天为周期有规律的变化,并且希望在数据量变化前提前完成集群的扩缩容,可以使用MRS的资源计划配置在规定时间内按计划调整Task节点数量。 例如:某项实时处理业务数据量在周一、周二和周六7:00~13:00出现高峰,其他时间保持平稳低水平。假设使用MRS流式集群来处理该业务数据,在周一、周二和周六7:00~13:00时,为应对数据量高峰需要5个Task节点的资源,其他时间只需要2个Task节点。 进入弹性伸缩配置界面后,配置资源计划。 资源计划可调控节点数量,也会对实际价格有影响,请谨慎操作。 节点数量范围的“默认范围”设置为“2-2”,表示除资源计划规定时间范围外,其他时间Task节点数量固定为2个。 单击默认范围下方的“配置指定时间段的节点数量范围”或者“添加资源计划”。 配置“生效日期”、“时间范围”和“节点数量范围”。 例如此处“生效日期”设置为周一、周二和周六,“时间范围”设置为“07:00-13:00”,“节点数量范围”设置为“5-5”,表示在该时间范围内,Task节点数量固定为5个。 单击“配置指定时间段的节点数量范围”配置多条资源计划。 生效日期默认是每日生效,也可以选择周一至周日任意一天或几天生效。 如果没有配置指定时间段的节点数量范围,则节点数量范围以“默认范围”为准。 如果配置了指定时间段的节点数量范围,则在这个时间范围内,以配置的“节点数量范围”为准。不在配置的时间范围时,则以“默认范围”为准。
  • 场景三:弹性伸缩规则与资源计划叠加使用 如果数据量并非非常平稳,有可能出现超出预期的波动,因此并不能保证固定Task节点范围一定可以满足业务场景,此时需要在资源计划的基础上根据实时负载对Task节点数量进行调整。 例如:某项实时处理业务数据量在周一、周二和周六7:00~13:00出现规律性变化,但是数据量变化并非非常平稳。假设在周一、周二和周六7:00~13:00期间,需要Task节点的数量范围是5~8个,其他时间需要Task节点数量是2~4个。因此可以在资源计划的基础上,设置基于负载的弹性伸缩规则,以实现当数据量超出预期后,Task节点数量可以在资源计划规定的范围内根据负载情况进行浮动,但不会超出该规定范围。资源计划触发时,会以变化最小的方式使节点数量满足计划规定范围,即如果需要扩容则扩容到计划节点数量范围的下限,如果需要缩容则缩容到计划节点数量范围的上限。 进入弹性伸缩配置界面后,配置弹性伸缩规则。 弹性伸缩规则可调控节点数量,也会对实际价格有影响,请谨慎操作。 节点数量范围的默认范围: 输入Task实例弹性伸缩的数量范围,此约束应用于所有扩容缩容规则。 例如本场景中,配置为2~4个。 伸缩规则: 需要配置扩容或者缩容,否则弹性伸缩将不会启用。 规则类型选择“扩容”或者“缩容”。 单击“添加规则”,进入“添加规则”页面。 图4 添加规则 配置“规则名称”、“如果”、“持续”、“添加”、“冷却时间”。 单击“确定”。 您可以在弹性伸缩页面,扩容或者缩容区域查看配置的规则。 配置资源计划。 单击节点默认范围下方的“配置指定时间段的节点数量范围”或者“添加资源计划”。 配置“生效日期”、“时间范围”和“节点数量范围”。 例如此处“生效日期”设置为周一、周二和周六,“时间范围”设置为“07:00-13:00”,“节点数量范围”设置为“5~8”。 单击“配置指定时间段的节点数量范围”或者“添加资源计划”按钮配置多条资源计划。 生效日期默认是每日生效,也可以选择周一至周日任意一天或几天生效。 如果没有配置指定时间段的节点数量范围,则节点数量范围以“默认范围”为准。 如果配置了指定时间段的节点数量范围,则在这个时间范围内,以配置的“节点数量范围”为准。不在配置的时间范围时,则以“默认范围”为准。
  • 为已有MRS集群新增弹性伸缩策略 集群创建成功后,可以通过节点组维度或资源池维度对集群内的Task节点组配置相关规则。 由于节点组维度策略和资源池维度策略互斥,用户根据实际需要选择其中一个配置即可。 指定资源池维度策略在MRS 3.1.5及其之后版本支持。 对比项 节点组维度 资源池维度 弹性伸缩对象 Task节点组内的所有节点 弹性伸缩策略指定资源池内的Task节点 扩容节点资源池归属 default资源池 弹性伸缩策略指定资源池 缩容对象 Task节点组内随机缩容 弹性伸缩策略指定资源池内随机缩容 前提条件 弹性伸缩仅用于Task节点组,当集群内没有Task节点组时,需先添加Task节点组后再继续配置。 资源池维度时必须先添加资源池,具体请参考添加MRS租户资源池。 操作步骤 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称。进入集群详情页面。 选择“弹性伸缩”页签,进入配置弹性伸缩界面。 用户根据实际需要选择资源池维度或者节点组维度进行策略配置。 不同节点组之间的弹性伸缩策略互斥,即只能存在一个节点组有开启的弹性伸缩策略。 弹性伸缩规则可调控节点数量,也会对实际价格有影响,请谨慎操作。 单击“新增弹性伸缩”按钮,即可添加弹性伸缩策略。 图2 新增弹性伸缩策略 您可以参考以下场景进行配置: 场景一:单独配置弹性伸缩规则 场景二:单独使用资源计划 场景三:弹性伸缩规则与资源计划叠加使用
  • 场景一:单独配置弹性伸缩规则 单独配置弹性伸缩规则场景:需要根据Yarn资源使用情况动态调整节点数,在Yarn可用内存低于20%时扩容5个节点,可用内存高于70%时缩容5个节点。Task节点组最高不超过10个节点,最低不少于1个节点。 进入弹性伸缩配置界面后,配置弹性伸缩规则。 配置节点默认范围 输入Task实例弹性伸缩的数量范围,此约束应用于所有扩容缩容规则,取值范围为0~500。 例如本业务场景中,配置为1~10。 配置弹性伸缩规则 需要配置扩容或者缩容规则,否则弹性伸缩将不会启用。 规则类型选择“扩容”或者“缩容”。 单击“添加规则”,进入规则编辑页面。 图3 添加规则 配置“规则名称”、“如果”、“持续”、“添加”、“冷却时间”,具体弹性伸缩指标含义可以参考MRS集群Task节点弹性伸缩概述。 单击“确定”。 您可以在弹性伸缩页面,扩容或者缩容区域查看、编辑或删除配置的规则。您可以继续添加并配置多条规则。 单击“确定”,完成弹性伸缩规则设置。 如果是为已有集群配置弹性伸缩的场景,需勾选“我同意授权MRS服务根据以上策略自动进行节点扩容/缩容操作。”。
  • 创建MRS集群时配置弹性伸缩 创建集群时,弹性伸缩功能可以通过在高级配置参数中进行配置。 仅分析集群、流式集群和混合集群支持创建集群时配置弹性伸缩策略。 登录MRS管理控制台。 在购买包含有Task类型节点组件的集群时,参考自定义购买MRS集群配置集群软件配置和硬件配置信息后,在“高级配置”页签的弹性伸缩栏,打开对应Task节点类型后的开关按钮,即可进行弹性伸缩规则及资源计划的配置或修改。 图1 创建集群时配置弹性伸缩 您可以参考以下场景进行配置: 场景一:单独配置弹性伸缩规则 场景二:单独使用资源计划 场景三:弹性伸缩规则与资源计划叠加使用
  • MRS 3.1.0.0.2补丁基本信息 表10 补丁基本信息 补丁号 MRS 3.1.0.0.2 发布时间 2023-04-10 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持Manager运维通道 支持Knox连接数告警 支持补丁xml配置文件合并 支持MRS管理面的作业返回日志路径 支持对慢盘自动隔离能力 大数据组件 支持ClickHouse滚动重启设置超时时间,并在重启失败时主动退出运维模式 支持ClickHouse屏蔽连接异常断开场景下,打印带堆栈exception Error日志 增加ClickHouse磁盘检查开关 支持HDFS单副本检测能力 解决的问题 MRS 3.1.0.0.2 修复问题列表: MRS Manager 解决安装用户名支持带“.”补丁后,出现创建异常用户的问题 解决executor每两小时有一批launcher-job任务提交失败问题 解决扩容的节点ssh key不清理问题 大数据组件 解决Hive表存在多个TIMESTAP字段,在插入时存在某个字段不是时间格式会导致原来能够是时间格式的数据显示错位问题 解决Hive表int列分区,值为01场景,无法删除分区问题 解决FlinkServer页面单击任务详情,业务不能正常跳转问题 解决StreamingFlinkSink写OBS从checkpoint恢复会抛异常导致作业失败 解决FlinkServer页面上传jar包,大小限制为10MB问题,调整到200MB 解决ClickHouse修改密码后监控数据不显示问题 解决ClickHouse支持MySQL引擎表无法连接MySQL时进程启动问题 解决ClickHouse crash问题 解决ClickHouse冷热分离,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.2补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
共99354条