华为云用户手册

  • 对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在HDFS命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录: hdfs dfs -mkdir obs://OBS并行文件系统名称/hadoop 使用以下命令上传客户端节点“/opt/test.txt”文件到“obs://OBS并行文件系统名称/hadoop”路径下。 hdfs dfs -put /opt/test.txt obs://OBS并行文件系统名称/hadoop OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/HDFS/hadoop/etc/hadoop vi log4j.properties 在文件中添加OBS日志级别配置 log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图1 添加OBS日志级别
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.0.1.3 发布时间 2019-12-25 解决的问题 MRS 2.0.1.3 修复问题列表: MRS Manager 优化扩缩容逻辑,解决V1作业管理接口tcp连接残留问题 MRS大数据组件 MRS Hive 解决hiveserver内存溢出问题、存在大量小文件的情况下,MergeFile阶段非常慢问题、insert overwrite的load partition阶段出现找不到文件问题、HIVE-22373:Container重用时文件合并任务失败的问题 MRS 2.0.1.2 修复问题列表: MRS Manager 解决RM执行refreshNodes超时导致的偶现扩容失败问题 MRS 2.0.1.1 修复问题列表: MRS Manager 解决反复扩缩容导致MRS Master节点executor内存溢出问题 MRS大数据组件 MRS Presto新增Presto支持OBSFileSystem MRS Presto解决频繁打印jstack,以及日志文件太大不滚动问题 补丁兼容关系 MRS 2.0.1.3补丁包中包含MRS 2.0.1.2补丁包和MRS 2.0.1.1补丁包的全部内容。
  • MRS 3.1.2-LTS.2.12补丁基本信息 补丁号 MRS 3.1.2-LTS.2.12 发布时间 2023-07-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 支持弹性伸缩到指定资源池 解决的问题 MRS 3.1.2-LTS.2.12修复问题列表: 大数据组件 解决[YARN-10854],修复未配置include nodes文件路径时缩容后内存中节点数据残留问题 补丁兼容关系 MRS 3.1.2-LTS.2.12补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.6补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.6 发布时间 2022-12-12 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.2.6 修复问题列表: 修复log4j漏洞(CVE-2021-44228),log4j升级到2.17.2版本 包含MRS 3.1.2-LTS.2.2修复问题 补丁兼容关系 MRS 3.1.2-LTS.2.6补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.14补丁基本信息 补丁号 MRS 3.1.2-LTS.2.14 发布时间 2023-10-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager MRS客户端管理功能增强,客户端管理支持给客户端打补丁。 MRS支持运维巡检通道。 MRS服务集成StoreWorker/StoreMaster滚动重启,Manager新增滚动重启策略。 解决的问题 MRS 3.1.2-LTS.2.14修复问题列表: MRS Manager 解决备oms节点上报fms资源异常告警的问题。 解决扩容失败HOSTS_OS_PATCH_STATE表IP残留导致后续扩容失败的问题。 解决 CES 监控和Yarn上监控对不上的问题。 解决 OMS 频繁主备倒换的问题。 解决查看指定时间段内主机资源概况,监控数据为空,查看失败的问题。 解决磁盘监控指标计算不正确的问题。 大数据组件 解决Yarn的ResourceManager频繁主备倒换的问题 解决Yarn的NodeManager健康检查太敏感的问题 解决Yarn健康检查误采集备节点健康状态,导致上报服务不可用告警的问题 解决Ldapserver数据不同步的问题 解决安装MRS 3.1.2-LTS.2.6补丁后Hive执行失败的问题 解决HiveServer连接Guardian线程泄漏的问题 解决Hive列值过长写入ORC文件失败的问题 解决Hive异常任务失败(含失败、异常终止等状态)后临时文件清理较慢的问题 解决Hive配置外置元数据,导致hive启动失败的问题 解决Hive的hiveserver.out日志不压缩,导致/var/log/占满的问题 解决Hive分区表增加字段时间长的问题 解决rand函数在0-1直接的随机数字串只能生成0.72左右的问题 解决Hive的WebHcat进程kill后,无法自拉起,无告警上报的问题 解决Kafka在kerberos认证失败之后自动重启存在异常的问题 解决Hudi和Spark目录下的Spring包不兼容的问题 解决Zookeeper配置了配额仍然显示设置顶层配额失败的告警的问题 解决老Guardian实例日志需要打印客户端IP的问题 解决MemArtsCC使用TPCDS测试套写10TB数据,任务运行中,cc-sidecar不断重启的问题 解决MemArtsCC裸机环境长稳运行中,cc-sidecar进程故障的问题 解决存算分离场景下Spark作业失败时残留文件需要快速清理的问题 解决Spark打印ERROR日志的问题 解决Spark的JobHistory进程挂起,不自愈,且无告警上报的问题 解决Spark开启推测执行加载分区为null的问题 解决Spark的JD BCS erver进程注入进程Z状态故障、故障注入期间进程不自愈、无进程异常告警、Spark任务已提交失败、无Spark应用不可用告警的问题 解决Spark的JDBC进程kill后,7min自愈,且无告警上报,存在可靠性风险的问题 解决Spark的JDB CS erver进程挂起,进程不自愈,且无告警上报,spark应用提交失败的问题 解决Spark停止JDBCServer实例无事件上报,JDBCServer.log里有上报事件失败的warn的问题 解决安装2.10补丁之后Spring的包冲突导致部分Spark作业无法运行的问题 解决Spark的JobHistory进程z状态后,进程异常消失,不自愈,且无告警上报,存在可靠性风险的问题 解决Spark的JobHistory进程kill后,5min自愈,且无告警上报的问题 解决Spark2x切换补丁未替换Spark服务端Jar包的问题 解决Spark写入eventlog失败的问题 补丁兼容关系 MRS 3.1.2-LTS.2.14补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.8补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.8 发布时间 2023-03-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 租户侧支持指标上报CES功能 自动下载bms插件 大数据组件 OBS故障感知增强,MRS能感知所有OBSA上报的异常 解决的问题 MRS 3.1.2-LTS.2.9修复问题列表: MRS Manager 解决重装主机后hetu的worker启动不到该主机上的问题 解决混搭集群,arm镜像证书与X86镜像证书不互信,导致作业提交到该arm节点上运行失败问题 解决获取ECS的临时ak/sk失败告警帮助文档缺失问题 大数据组件 解决Hive snappy文件调用movefile加入_1后,文件内容出现乱码问题 解决Hive on MR合并不兼容ORC文件导致数据丢失问题 解决HBase RegionServer偶现重启问题 补丁兼容关系 MRS 3.1.2-LTS.2.8补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.2补丁基本信息 表4 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.2 发布时间 2022-10-31 解决的问题 MRS 3.1.2-LTS.2.2 修复问题列表: 解决Hive元数据库查询网络阻塞问题 解决MRS对接DCS做缓存,缓存键一天多次被清空问题 解决CBG访问OBS概率性无权限问题 解决长时间使用客户端出现死锁问题 解决Yarn运行偶现RM主备切换问题 解决Spark SQL外表动态分区执行insert overwrite报错问题 解决周期清理任务清理.hive-staging时,查询数据库失败问题 解决NameNode在大量删除操作的时候会出现RPC请求处理慢的问题 解决Hive配置Redis缓存频繁访问表key导致Redis热键问题 解决磁盘写速率和磁盘读速率两个指标无法正常上报问题 解决查看指定时间段内的资源概况,监控数据部分缺失问题 解决NameNode退服缓存残留问题 解决Metastore监控指标缺失问题 解决认证krb_test_user失败问题 解决Yarn所有业务中断,报错Timer already cancelled问题 解决实例配置页面无单位转换问题 解决相同AZ下,扩容的节点返回的AZ有误问题 解决[YARN-10854]问题 Hive支持Redis缓存连接失败重试 支持OBSA客户端数据监控上报 支持OBS流控重试机制 pms性能优化 mrs-obs-provider的缓存过期优化 优化删除分区的逻辑 Yarn的refresh node速度优化 删除无效告警 补丁兼容关系 MRS 3.1.2-LTS.2.2补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.10补丁基本信息 补丁号 MRS 3.1.2-LTS.2.10 发布时间 2023-05-23 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.2.10修复问题列表: 大数据组件 解决重启Zookeeper节点后Hive SQL执行失败的问题 解决token renew失败的问题 补丁兼容关系 MRS 3.1.2-LTS.2.10补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • 安装补丁的影响 MRS 3.1.2-LTS.2.6补丁安装后,目录“/srv/BigData/data1/nm/localdir/filecache/”下的log4j旧版本的包,需要重新提交相关的yarn作业,才会加载新的log4j的包。 MRS 3.1.2-LTS.2版本的补丁安装过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.1.2-LTS.2版本的补丁安装完成后需要在 FusionInsight Manager Web界面重启Flink、Hadoop、HBase、HDFS、Hive、MapReduce、Meta、Spark2x、Ranger和Yarn服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.2-LTS.2.14补丁安装后,如出现客户端补丁包生成异常的提示,可按如下步骤执行重新生成客户端补丁包: 登录集群OMS主节点。 切换omm用户。 su - omm 登录MRS管理控制台页面,选择“现有集群”,在集群列表中单击指定的集群名称,然后单击补丁管理,进入补丁信息界面,确定当前安装的最新补丁版本号,执行脚本: sh /opt/Bigdata/patches/{补丁版本号}/generate_client_patch.sh 如看到“generate client patch success”打印,则说明生成补丁包成功,如出现ERROR打印,则说明生成失败,可参考步骤4.a定位。 查看日志 /opt/Bigdata/patches/log/generate_client_patch.log 具体定位失败原因。
  • 克隆MRS集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。选中一个运行中的集群并单击集群名称,进入集群基本信息页面,在页面右上角单击“克隆”。 克隆已删除的历史集群时: 在左侧导航栏中选择“历史集群”。 选中一个需要克隆的集群,单击对应“操作”列中的“克隆”。或者单击需要克隆的集群名称,进入集群基本信息页面,在页面右上角单击“克隆”。 在弹出的“克隆集群”的窗口中选择需要克隆的配置。 若选择克隆作业,需填写克隆作业数量(最多支持50个,默认10个。) 克隆作业时设置的克隆作业数量不代表最终实际克隆的作业数,部分作业类型暂不支持,会被系统自动过滤。 单击“确定”。 在生成的集群购买页,如保持配置不变,则填写相关密码或密钥后,单击“立即购买”即可克隆集群。 如需修改配置,也可根据实际情况(增删组件、增删节点组等)修改后克隆集群。 所有创建过的节点组,若节点数不为0都将克隆,克隆的节点数以记录的最新/最终节点数为准。 克隆集群时不修改原集群已勾选的组件、不改变集群类型,将按照默认克隆模板克隆原集群节点组和拓扑信息。如增删组件,修改集群类型,将无法使用默认克隆模板,请在系统自动生成的基础信息上进行设置。 以下场景可能导致克隆作业失败。 克隆作业时,参数包含非OBS路径可能会执行失败。 克隆作业时,逗号+空格的格式只能存在参数间,若存在参数中,克隆作业可能执行失败。 在原有参数后继续添加参数,逗号后需要有空格,否则作业可能执行失败。 克隆的作业返回参数不含有fs.obs.access.key、fs.obs.secret.key,若需要fs.obs.access.key、fs.obs.secret.key,需在“服务配置参数”中添加。
  • 使用限制 已删除的集群仅支持删除3个月内的集群进行克隆。 克隆包周期集群时默认不自动续费。 磁盘类型为专属分布式存储的集群不允许克隆。 克隆时仅可以修改为更高集群版本,已下线版本的集群无法克隆创建。 在组件服务配置修改的参数和创建集群时选择的自定义软件配置的参数不会克隆到新集群。 资源池维度的弹性伸缩策略不支持克隆。 克隆集群时克隆作业: 未通过console平台或调用v2新增并执行作业接口提交的作业无法在克隆集群时克隆 DistCp、Flink、SQL类(SparkSQL、HiveSQL等)作业类型无法克隆 克隆的作业只能并行执行,不保证执行顺序 包周期集群不允许克隆集群作业 普通集群支持克隆作业,安全集群不支持克隆作业 集群相关配置是否支持克隆情况参见表1。 表1 MRS集群参数克隆说明 参数 说明 计费模式、版本类型、集群版本、集群类型、组件列表、可用区、企业项目、虚拟私有云、子网、安全组(默认共用克隆集群的)、节点组配置、Kerberos认证、主机名前缀、标签、委托(集群节点默认绑定的委托名称)、日志转储、日志记录 默认克隆 元数据、告警、指标共享、弹性公网IP、补丁、数据盘加密、资源池、自定义配置 不支持克隆 引导操作、弹性伸缩策略、作业 可选克隆
  • 安装补丁的影响 安装MRS 1.7.1.1,MRS 1.7.1.2补丁期间会重启服务,重启服务期间会引起服务暂时不可用。如果已经安装了MRS 1.7.1.2补丁之后,从MRS 1.7.1.2升级其他补丁不会重启服务,业务不断服。 MRS 1.7.1.1,MRS 1.7.1.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.7.1.6 发布时间 2019-01-24 解决的问题 MRS 1.7.1.6修复问题列表: MRS Manager MRS服务启动、停止及重启支持显示依赖关系,并自定义重启哪些服务。 MRS Manager查看HBase集群运行状态时,增加集群维度的监控项。 MRS大数据组件 MRS hue支持Yarn任务的管理功能,如停止应用。 MRS解支持HBase压缩队列告警。 MRS 1.7.1.5 修复问题列表: MRS Manager MRS Manager UI界面排版优化 MRS Manager操作及显示易用性优化 MRS Manager增加大数据服务滚动重启能力 MRS Manager新增文件句柄数量监控 MRS Manager新增大数据组件发生重启事件上报 MRS 镜像 解决ECS VNC登录不停打印输出问题 解决操作系统日志转储配置问题 MRS 1.7.1.3 修复问题列表: MRS Manager新增运维通道功能。 MRS 1.7.1.2 修复问题列表: MRS Manager MRS Manager单击审计日志详细信息下载报错。 MRS Manager界面中主机列表下的磁盘使用率计算优化。 MRS 1.7.1.1 修复问题列表: Kafka组件问题 KAFKA-5413 Kafka日志清理失败:segment文件offset跨度过大。 KAFKA-6529 客户端异常断开场景,Broker内存泄露。 KAFKA-5417 并发场景下,客户端连接状态不一致。 HBase问题 HBase解决每次执行balance命令,重复计算region location的问题 补丁兼容关系 MRS 1.7.1.6补丁包中包含MRS 1.7.1.1,MRS 1.7.1.2,MRS 1.7.1.3 和MRS 1.7.1.5补丁包的全部内容。
  • 注意事项 MRS 1.7.1.6补丁安装之后,HBase和Hue的配置状态会变成过期状态,需要手动在MRS Manager页面执行滚动重启HBase服务和Hue服务。具体操作请参考重启MRS集群组件。 图1 HBase服务和Hue服务状态 新增弹性公网IP访问MRS Manager功能,弹性公网IP使用及注意事项说明参考访问MRS集群Manager。 普通集群(Kerberos关闭)增加了登录MRS Manager认证功能,默认初始账号为:admin密码为MrsDefault@123,首次登录请及时修改登录密码。安全集群登录MRS Manager认证的账号名密码为用户自己设定值。 由于1.7.1 集群的健康检查中存在一项误报,而补丁安装前会进行集群的健康检查。从而导致客户第一次提交安装补丁后,提示集群异常,补丁安装终止。在确认报错是误报后,客户可以再次提交安装补丁请求,第二次安装补丁会跳过健康检查,进行补丁安装。 误报内容可以通过如下方式确认: 查看并导出健康检查报告,健康检查结果上只存在这两个主机报错:“安装目录及数据目录检查: 目录下文件异常. 请检查安装目录和数据目录下的内容”。 图2 健康检查结果表
  • 为已有MRS集群新增弹性伸缩策略 集群创建成功后,可以通过节点组维度或资源池维度对集群内的Task节点组配置相关规则。 由于节点组维度策略和资源池维度策略互斥,用户根据实际需要选择其中一个配置即可。 指定资源池维度策略在MRS 3.1.5及其之后版本支持。 对比项 节点组维度 资源池维度 弹性伸缩对象 Task节点组内的所有节点 弹性伸缩策略指定资源池内的Task节点 扩容节点资源池归属 default资源池 弹性伸缩策略指定资源池 缩容对象 Task节点组内随机缩容 弹性伸缩策略指定资源池内随机缩容 前提条件 弹性伸缩仅用于Task节点组,当集群内没有Task节点组时,需先添加Task节点组后再继续配置。 资源池维度时必须先添加资源池,具体请参考添加MRS租户资源池。 操作步骤 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称。进入集群详情页面。 选择“弹性伸缩”页签,进入配置弹性伸缩界面。 用户根据实际需要选择资源池维度或者节点组维度进行策略配置。 不同节点组之间的弹性伸缩策略互斥,即只能存在一个节点组有开启的弹性伸缩策略。 弹性伸缩规则可调控节点数量,也会对实际价格有影响,请谨慎操作。 单击“新增弹性伸缩”按钮,即可添加弹性伸缩策略。 您可以参考以下场景进行配置: 场景一:单独配置弹性伸缩规则 场景二:单独使用资源计划 场景三:弹性伸缩规则与资源计划叠加使用
  • 场景一:单独配置弹性伸缩规则 单独配置弹性伸缩规则场景:需要根据Yarn资源使用情况动态调整节点数,在Yarn可用内存低于20%时扩容5个节点,可用内存高于70%时缩容5个节点。Task节点组最高不超过10个节点,最低不少于1个节点。 进入弹性伸缩配置界面后,配置弹性伸缩规则。 配置节点默认范围 输入Task实例弹性伸缩的数量范围,此约束应用于所有扩容缩容规则,取值范围为0~500。 例如本业务场景中,配置为1~10。 配置弹性伸缩规则 需要配置扩容或者缩容规则,否则弹性伸缩将不会启用。 规则类型选择“扩容”或者“缩容”。 单击“添加规则”,进入规则编辑页面。 图2 添加规则 配置“规则名称”、“如果”、“持续”、“添加”、“冷却时间”,具体弹性伸缩指标含义可以参考MRS集群Task节点弹性伸缩概述。 单击“确定”。 您可以在弹性伸缩页面,扩容或者缩容区域查看、编辑或删除配置的规则。您可以继续添加并配置多条规则。 单击“确定”,完成弹性伸缩规则设置。 如果是为已有集群配置弹性伸缩的场景,需勾选“我同意授权MRS服务根据以上策略自动进行节点扩容/缩容操作。”。
  • 创建MRS集群时配置弹性伸缩 创建集群时,弹性伸缩功能可以通过在高级配置参数中进行配置。 仅分析集群、流式集群和混合集群支持创建集群时配置弹性伸缩策略。 登录MRS管理控制台。 在购买包含有Task类型节点组件的集群时,参考自定义购买MRS集群配置集群软件配置和硬件配置信息后,在“高级配置”页签的弹性伸缩栏,打开对应Task节点类型后的开关按钮,即可进行弹性伸缩规则及资源计划的配置或修改。 图1 创建集群时配置弹性伸缩 您可以参考以下场景进行配置: 场景一:单独配置弹性伸缩规则 场景二:单独使用资源计划 场景三:弹性伸缩规则与资源计划叠加使用
  • 场景三:弹性伸缩规则与资源计划叠加使用 如果数据量并非非常平稳,有可能出现超出预期的波动,因此并不能保证固定Task节点范围一定可以满足业务场景,此时需要在资源计划的基础上根据实时负载对Task节点数量进行调整。 例如:某项实时处理业务数据量在周一、周二和周六7:00~13:00出现规律性变化,但是数据量变化并非非常平稳。假设在周一、周二和周六7:00~13:00期间,需要Task节点的数量范围是5~8个,其他时间需要Task节点数量是2~4个。因此可以在资源计划的基础上,设置基于负载的弹性伸缩规则,以实现当数据量超出预期后,Task节点数量可以在资源计划规定的范围内根据负载情况进行浮动,但不会超出该规定范围。资源计划触发时,会以变化最小的方式使节点数量满足计划规定范围,即如果需要扩容则扩容到计划节点数量范围的下限,如果需要缩容则缩容到计划节点数量范围的上限。 进入弹性伸缩配置界面后,配置弹性伸缩规则。 弹性伸缩规则可调控节点数量,也会对实际价格有影响,请谨慎操作。 节点数量范围的默认范围: 输入Task实例弹性伸缩的数量范围,此约束应用于所有扩容缩容规则。 例如本场景中,配置为2~4个。 伸缩规则: 需要配置扩容或者缩容,否则弹性伸缩将不会启用。 规则类型选择“扩容”或者“缩容”。 单击“添加规则”,进入“添加规则”页面。 图3 添加规则 配置“规则名称”、“如果”、“持续”、“添加”、“冷却时间”。 单击“确定”。 您可以在弹性伸缩页面,扩容或者缩容区域查看配置的规则。 配置资源计划。 单击节点默认范围下方的“配置指定时间段的节点数量范围”或者“添加资源计划”。 配置“生效日期”、“时间范围”和“节点数量范围”。 例如此处“生效日期”设置为周一、周二和周六,“时间范围”设置为“07:00-13:00”,“节点数量范围”设置为“5~8”。 单击“配置指定时间段的节点数量范围”或者“添加资源计划”按钮配置多条资源计划。 生效日期默认是每日生效,也可以选择周一至周日任意一天或几天生效。 如果没有配置指定时间段的节点数量范围,则节点数量范围以“默认范围”为准。 如果配置了指定时间段的节点数量范围,则在这个时间范围内,以配置的“节点数量范围”为准。不在配置的时间范围时,则以“默认范围”为准。
  • 场景二:单独使用资源计划 当数据量以天为周期有规律的变化,并且希望在数据量变化前提前完成集群的扩缩容,可以使用MRS的资源计划配置在规定时间内按计划调整Task节点数量。 例如:某项实时处理业务数据量在周一、周二和周六7:00~13:00出现高峰,其他时间保持平稳低水平。假设使用MRS流式集群来处理该业务数据,在周一、周二和周六7:00~13:00时,为应对数据量高峰需要5个Task节点的资源,其他时间只需要2个Task节点。 进入弹性伸缩配置界面后,配置资源计划。 资源计划可调控节点数量,也会对实际价格有影响,请谨慎操作。 节点数量范围的“默认范围”设置为“2-2”,表示除资源计划规定时间范围外,其他时间Task节点数量固定为2个。 单击默认范围下方的“配置指定时间段的节点数量范围”或者“添加资源计划”。 配置“生效日期”、“时间范围”和“节点数量范围”。 例如此处“生效日期”设置为周一、周二和周六,“时间范围”设置为“07:00-13:00”,“节点数量范围”设置为“5-5”,表示在该时间范围内,Task节点数量固定为5个。 单击“配置指定时间段的节点数量范围”配置多条资源计划。 生效日期默认是每日生效,也可以选择周一至周日任意一天或几天生效。 如果没有配置指定时间段的节点数量范围,则节点数量范围以“默认范围”为准。 如果配置了指定时间段的节点数量范围,则在这个时间范围内,以配置的“节点数量范围”为准。不在配置的时间范围时,则以“默认范围”为准。
  • 告警解释 检测到分布式表本身,或分布式表对应的本地表的元数据不一致持续180min后,系统产生此告警。 当分布式表本身,或分布式表对应的本地表的元数据一致时,告警自动清除。 元数据一致包括: 表中各列的数量、名称、顺序、类型一致 分区键一致 排序键一致 主键一致 采样键一致 该告警存在,则说明当前节点所属的ClickHouse集群中,表元数据存在不一致,不一致可能是由多种原因导致,不仅限于附加信息。
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS 3.2.0-LTS.1.9/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 升级客户端 如果有使用自主安装的客户端(集群内、外新下载客户端),需要执行客户端升级操作。 登录集群主节点并执行以下命令: cd /opt/Bigdata/patches/{MRS补丁版本号}/download/ 将补丁安装包拷贝到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 例如: scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 执行以下命令创建补丁目录并解压补丁包: mkdir /opt/{MRS补丁版本号} tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号} 执行客户端补丁升级。 登录客户端所在节点,并执行以下命令: cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh upgrade {客户端安装目录} 例如: sh upgrade_client.sh upgrade /opt/client/
  • 数据盘扩容(手动扩容) 当集群版本为MRS 3.1.2-LTS.3、MRS 3.2.0-LTS.1时,可参考以下流程进行数据盘扩容: 请联系华为云技术支持开通数据盘扩容功能。 参照数据盘扩容(一键扩容)进行云硬盘(EVS)容量扩容。 此时只能将云硬盘(EVS)扩容至目标容量,磁盘分区和文件系统无法自动扩容。 进行磁盘分区和文件系统扩容。 请参考补丁下载地址下载数据盘扩容补丁,参考补丁说明中(补丁包中名为README.md的文件)操作步骤进行磁盘分区和文件系统扩容。 若存在自行挂载的数据盘,未能扩展磁盘分区和文件系统,请参考扩展数据盘的分区和文件系统(Linux)进行处理或联系华为云技术支持进行处理。
  • 数据盘扩容(一键扩容) 当集群版本为MRS 3.1.0(须安装3.1.0.0.11及以上补丁)、MRS 3.1.5(须安装3.1.5.0.3及以上补丁)、MRS 3.3.0-LTS参考以下步骤进行数据盘扩容: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。 在集群详情页,单击“节点管理”。 在需要扩容磁盘的节点组操作列,单击“数据盘扩容”。 选择需要扩容的节点名称和目标容量,单击“确定”。 若节点较多,可以按节点名称或者IP模糊搜索,也可以使用数据盘容量进行条件过滤。 预估费用为按显示的磁盘容量预估的费用,可能不准确,实际费用以节点实际的磁盘容量计算为准。所以建议数据盘扩容前先同步磁盘信息,预估费用会更准确。 若某节点组下节点进行过数据盘扩容,后续若该节点组扩容节点或进行集群克隆,则节点数据盘将按磁盘扩容后的容量创建。 当选择多节点扩容至目标容量,存在部分节点挂载数据盘高于目标容量时,这些数据盘将不进行扩容,也不参与订单收费。 仅支持集群节点创建时默认挂载的数据盘完整扩容,自行挂载的数据盘仅能扩容云硬盘(EVS)容量,无法扩展磁盘分区和文件系统,需参考扩展数据盘的分区和文件系统(Linux)进行处理或联系华为云技术支持进行处理。 扩展磁盘分区和文件系统时,只能将新增容量扩展至磁盘的尾部分区,系统盘为多分区,故暂不支持系统盘扩容。 确认数据盘扩容是否成功。 在云硬盘列,查看数据盘容量是否扩容至目标容量 。 登录Manager,查看扩容节点的磁盘信息,对应磁盘分区是否扩容成功。
  • 补丁下载地址 上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 贵阳一:https://mrs-container1-patch-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.5.1.4 发布时间 2018-08-23 解决的问题 Spark组件问题: 当carbon表元数据文件较大时导致的查询慢问题。 修复carbon在某些场景下,对数据进行压缩时,出现转换为SHORT_INT失败的问题。 spark解析zlib时出错,出现java.io.IOException: unknown compression method的异常。 当用户数据增加到一定量后向carbon导入时出现executor崩溃。 在Yarn cluster模式下,当Spark程序客户端退出后,程序自动被停掉。 优化了当carbon表的segments很多时,执行delete语句慢的问题。 长时间运行的spark作业,执行spark SQL时出现GSS initiate failed错误。 carbon表执行select操作时,报carbonindex文件找不到的错误。 carbon表执行select操作时,由于tablestatues文件为空,报空指针异常的错误。 carbon表执行select操作时,由于deletedelta文件为空,报空指针异常的错误。 carbon表执行select操作时,由于并发操作导致tablestatues文件中有重复entry,报segment文件夹找不到的错误。 Kafka组件问题: MRS Manager上Kafka topic监控页面无数据。 SparkStreaming使用的scala版本与Kafka组件不一致,导致spark访问kafka失败。 SparkStreaming访问Kafka,只能读到一个分区。 HBase组件问题: HBase健康检查时,遇到非HBase问题引起的错误码与HBase本身的错误码有重合,导致误告警。 在MRS Manager界面上无法修改HBase服务端的部分配置文件(hdfs-site.xml、core-site.xml、mapred-site.xml、yarn-site.xml),后台修改这些配置文件,再重启服务后也会被强制还原。 在MRS Manager界面上无法修改HBase的dfs.client.read.shortcircuit配置项。 Hadoop 组件问题: yarn资源本地化过程中下载了archives类型资源后自动解压目录可能被注入。 YARN NodeManager上本地化资源文件及SPARK JobHistory历史文件未定时清理,导致磁盘爆满。 在Yarn的原生界面单击“Allocated Memory MB”排序时出现页面异常响应。 其他问题: 登录集群管理界面,点选租户管理,租户信息加载不出来。 MRS扩容场景下的可靠性增强。 优化MRS Manager的部分UI显示。 MRS安全集群创建角色时无法添加Hive组件权限。 补丁兼容关系 包含1.5.1版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 修改配置 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持视图表权限控制,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.ranger.plugin.viewaccesscontrol.enable值为true,并添加参数spark.ranger.plugin.viewaccesscontrol.enable=true到客户端目录下“Spark2x/spark/conf/spark-defaults.conf”配置文件中,重启JDBCServer实例。 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持子查询字段不带聚合函数语法,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.sql.legacy.correlated.scalar.query.enabled参数值为true,并添加参数spark.sql.legacy.correlated.scalar.query.enabled=true到客户端目录下“Spark2x/spark/conf/spark-defaults.conf”配置文件中,重启JDBCServer实例。
  • 告警解释 系统每30秒周期性检测总副本预留磁盘空间所占比率(总副本预留磁盘空间/(总副本预留磁盘空间+总剩余的磁盘空间)),并把实际的总副本预留磁盘空间所占比率和阈值(默认为90%)相比较。当检测到总副本预留磁盘空间所占比率连续多次(平滑次数)高于阈值时,产生该告警。 如果平滑次数为1,总副本预留磁盘空间所占比率小于或等于阈值时,告警恢复;如果平滑次数大于1,总副本预留磁盘空间所占比率小于或等于阈值的90%时,告警恢复。
  • 注意事项 由于1.7.1 集群的健康检查中存在一项误报,而补丁安装前会进行集群的健康检查。从而导致客户第一次提交安装补丁后,提示集群异常,补丁安装终止。在确认报错是误报后,客户可以再次提交安装补丁请求,第二次安装补丁会跳过健康检查,进行补丁安装。 误报内容可以通过如下方式确认: 查看并导出健康检查报告,健康检查结果上只存在这两个主机报错:“安装目录及数据目录检查: 目录下文件异常. 请检查安装目录和数据目录下的内容”。 图1 健康检查的结果
共100000条