华为云用户手册

  • 告警解释 系统每一个小时获取指定目录下直接子文件/目录的数量,判断其是否达到HDFS目录最大子文件/目录个数的百分比阈值(默认为“90%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode.fs-limits.max-directory-items”指定,默认值为“1048576”。如果一个目录的子文件/目录数量超过该值,则无法再在该目录下创建新的子文件/目录。 要监控的目录列表由参数“dfs.namenode.directory-items.monitor”指定,默认值为“/tmp,/SparkJobHistory,/mr-history”。 监控开关由参数“dfs.namenode.directory-items.monitor.enabled”指定,默认值为“true”,即该检测默认开启。
  • MRS 集群节点类型说明 MRS集群由多个弹性云服务器节点组成,根据节点的不同规格,系统以节点组的方式进行管理,不同的节点组一般选用不同的云服务器规格。 根据节点上部署的组件角色的不同,集群内的节点类型可分为Master节点、Core节点、Task节点。 表1 集群节点分类 节点类型 功能 Master节点 MRS集群管理节点,节点上部署 OMS Server负责管理和监控集群。 在MRS集群创建成功后,集群内的节点名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。 Master节点可以通过弹性云服务器界面的VNC方式登录,也可以通过SSH方式登录,并且Master节点可以免密码登录到其他节点。 系统自动将Master节点标记为主备管理节点,并支持MRS集群管理的高可用特性。如果主管理节点无法提供服务,则备管理节点会自动切换为主管理节点并继续提供服务。 查看Master1节点是否为主管理节点,请参见查看MRS集群主备管理节点。 Core节点 MRS集群工作节点,负责处理和分析数据,并存储过程数据。 在MRS集群详情的“节点管理”页面,节点类型包含“Core”的节点组所包含的节点为Core节点。 Task节点 计算节点,集群计算资源不足时通过配置弹性伸缩策略实现自动扩缩容。 在MRS集群详情的“节点管理”页面,节点类型为“Task”的节点组所包含的节点为Task节点。 如果数据节点组内除基础必选角色外仅部署了NodeManager(Yarn)角色或Supervisor(Storm)角色,则该节点组为Task类型节点组。 MRS集群节点支持用户远程登录,远程登录包含界面登录和SSH登录两种方式: 界面登录:直接通过弹性云服务器管理控制台提供的远程登录功能,登录到集群节点的Linux命令行操作界面。 SSH登录:仅适用于Linux弹性云服务器,您可以使用远程登录工具(例如PuTTY)登录弹性云服务器,此时需要该弹性云服务器绑定弹性IP地址。 集群节点申请和绑定弹性IP,请参见申请EIP并绑定至E CS 。 可以使用密钥方式也可以使用密码方式登录Linux弹性云服务器,详情请参见登录MRS集群节点。 父主题: 业务选型
  • 参考信息 节点互信异常处理方法如下: 本操作需使用omm用户执行。 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。 在两端节点执行ssh-add -l 确认是否有identities信息。 是,执行4。 否,执行2。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。 检查“/home/omm/.ssh”目录下的文件权限是否被修改。 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
  • 对接OBS 以客户端安装用户登录安装了Yarn客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在Yarn命令行显式添加要访问的OBS文件系统。 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录: hdfs dfs -mkdir obs://OBS并行文件系统名称/hadoop1 执行以下Yarn任务访问OBS: yarn jar 客户端安装目录/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi -Dmapreduce.job.hdfs-servers=NAMESERVICE -fs obs://OBS并行文件系统名称 1 1 其中“NAMESERVICE”为HDFS文件系统中的NameService,默认为“hdfs://hacluster”,如有多个NameService, 以“,”分割。 例如: yarn jar /opt/hadoopclient/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi -Dmapreduce.job.hdfs-servers=hdfs://hacluster -fs obs://bucketname 1 1 执行以下命令写入数据到OBS: yarn jar 客户端安装目录/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 100 obs://OBS并行文件系统名称/hadoop1/teragen1 执行以下命令将OBS下的数据复制到HDFS: hadoop distcp obs://OBS并行文件系统名称/hadoop1/teragen1 /tmp OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/Yarn/config vi log4j.properties 在文件中添加OBS日志级别配置(应用若使用自带的log4j.properties,添加同样配置即可) log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图1 添加OBS日志级别配置
  • 恢复租户数据 进入租户管理页面。 通过MRS管理控制台操作:在MRS管理控制台单击待操作的集群,在集群详情页,单击“租户管理”。 通过Manager操作(MRS 3.x及之后版本集群):在Manager页面单击“租户资源”。 通过Manager操作(MRS 2.x及之前版本集群):在Manager页面单击“租户管理”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看租户状态,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”或者“HDFS 存储”状态,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击“恢复租户数据”。 如果通过MRS 3.x及之后版本集群的Manager操作,请单击,在弹出的确认窗中输入当前登录的用户密码确认身份,单击“确定”。 在弹出的窗口中,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
  • 通过集群客户端提交作业 安装MRS集群客户端,具体操作可参考安装MRS集群客户端。 MRS集群中默认安装了一个客户端用于作业提交,也可直接使用该客户端。MRS 3.x及之后版本客户端默认安装路径为Master节点上的“/opt/Bigdata/client”,MRS 3.x之前版本为Master节点上的“/opt/client”。 使用MRS集群客户端安装用户登录客户端所在的节点。 执行以下命令初始化环境变量。 cd /opt/Bigdata/client source bigdata_env 如果当前集群已开启Kerberos认证,执行以下命令进行认证。 如果当前集群未开启Kerberos认证,则无需执行本步骤。 kinit MRS集群业务用户 MRS集群业务用户需在Manager界面中创建一个具有对应作业提交权限的业务用户,该用户需要加入“hive”用户组,请参考创建MRS集群用户。 例如: kinit testuser 执行beeline命令连接集群Hive,运行相关任务。 beeline -f SQL文件(执行文件里的SQL) 普通模式,可执行以下命令指定组件业务用户,如果不指定则会以当前操作系统用户连接HiveServer。 beeline -nMRS集群业务用户
  • 对系统的影响 AZ的健康状态由AZ内的存储资源(HDFS)、计算资源(Yarn)和关键角色的健康度是否超过配置阈值决定。 AZ亚健康有两种: 计算资源(Yarn)不健康,存储资源(HDFS)健康,任务无法提交到本AZ,但是数据可以继续往本AZ内读写。 计算资源(Yarn)健康,存储资源(HDFS)部分不健康,任务可以提交到本AZ,部分数据可以在本AZ内读写,依赖于Spark/Hive调度感知数据的本地性。 AZ不健康有三种: 计算资源(Yarn)健康,存储资源(HDFS)不健康,任务虽然可以提交到本AZ,但是数据无法在本AZ内读写,导致任务提交到本AZ无意义。 计算资源(Yarn)不健康,存储资源(HDFS)不健康,任务无法提交到本AZ,数据也无法往本AZ内读写。 除Yarn与HDFS以外,关键角色的健康度低于配置阈值。
  • MRS集群类型介绍 MRS包含了多种大数据组件,用户可基于企业大数据场景的业务场景、数据类型、可靠性要求以及资源预算等要求合理选择集群类型。 用户可以基于系统预置的集群模板快速购买一个集群,也可自行选择组件列表及高级配置特性,自定义购买集群。 表1 MRS集群类型 集群类型 场景介绍 核心组件 Hadoop分析集群 Hadoop集群完全使用开源Hadoop生态,采用YARN管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算,SparkStreaming、Flink流式数据计算、Tez有向无环图的分布式计算框架等Hadoop生态圈的组件,进行海量数据分析与查询。 Hadoop、Hive、Spark、Tez、Flink、ZooKeeper、Ranger HBase查询集群 HBase集群使用Hadoop和HBase组件提供一个稳定可靠,性能优异、可伸缩、面向列的分布式 云存储 系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。 Hadoop、HBase、ZooKeeper、Ranger Kafka流式集群 Kafka集群使用Kafka和Storm组件提供一个开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查询性能。被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域。 ClickHouse、ZooKeeper 实时分析集群 实时分析集群使用Hadoop、Kafka、Flink和ClickHouse组件提供一个海量的数据采集、数据的实时分析和查询的系统。 Hadoop、Kafka、Flink、ClickHouse、ZooKeeper、Ranger 父主题: 业务选型
  • 补丁基本信息 表2 补丁基本信息 补丁号 MRS 1.9.2.3 发布时间 2023-07-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.2.3补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 支持运维巡检 支持租户面直接对接 CES 支持对慢盘自动隔离能力 支持D系列磁盘热插拔 支持HDFS单副本检测能力 补丁兼容关系 MRS 1.9.2.3补丁包中包含MRS 1.9.2版本已发布的所有补丁已解决的问题。
  • 安装补丁的影响 安装MRS 1.9.2.5补丁期间会重启MRS Manager,重启期间会引起MRS Manager服务暂时不可用。如果集群之前安装了1.9.2.3补丁,安装完MRS 1.9.2.5补丁后不需要重启服务,否则安装MRS 1.9.2.5补丁需要滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务。 安装MRS 1.9.2.3补丁期间会重启MRS Manager,重启期间会引起MRS Manager服务暂时不可用。 如果集群之前安装了1.9.2.2补丁,安装MRS 1.9.2.3补丁需要滚动重启HDFS、YARN、MapReduce、Kafka组件服务;否则安装MRS 1.9.2.3补丁需要滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务,滚动重启服务不断服。 MRS 1.9.2.3补丁安装完成之后,需要关闭指标共享,重新打开指标共享。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换; 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.2.3补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 MRS 1.9.2.3补丁安装完成之后,需要重启OMS服务。如果集群之前安装了1.9.2.2补丁,不需要做此操作。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即用户自行搭建的客户端)。如果集群之前安装了1.9.2.2补丁,不需要做此操作。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(3.x之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若用户根据业务场景修改过客户端配置,请在重装客户端后再次修改客户端配置。
  • MRS 1.9.2.5补丁说明 表1 补丁基本信息 补丁号 MRS 1.9.2.5 发布时间 2024-05-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.2.5补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 解决告警不上报的问题 补丁兼容关系 MRS 1.9.2.5补丁包中包含MRS 1.9.2版本已发布的所有补丁已解决的问题。
  • 查看静态资源(2.x及之前版本) 在MRS Manager,单击“系统设置”,在“资源管理”区域单击“静态服务池”。 单击“状态”。 查看系统资源调整基数。 “系统资源调整基数”表示集群中每个节点可以被集群服务使用的最大资源。如果节点只有一个服务,则表示此服务独占节点可用资源。如果节点有多个服务,则表示所有服务共同使用节点可用资源。 “CPU(%)”表示节点中服务可使用的最大CPU。 “Memory(%)”表示节点中服务可使用的最大内存。 查看集群服务资源使用状态。 在图表区域的服务选择框中选择“所有服务”,则“图表”中会显示服务池所有服务的资源使用状态。 “生效的配置组”表示集群服务当前使用的资源控制配置组。默认情况下每天所有时间均使用“default”配置组,表示集群服务可以使用节点全部CPU,以及70%的内存。 查看单个服务资源使用状态。 在图表区域的服务选择框中选择指定服务,“图表”中会显示服务池此服务的资源使用状态。 用户可以选择页面自动刷新间隔的设置。 在“时间区间”选择需要查看服务资源的时间段。 单击“查看”可以查看相应时间区间的服务资源数据。 自定义服务资源报表。 单击“定制”,勾选需要显示的服务源指标。 单击“确定”保存并显示所选指标。 单击“清除”可批量取消全部选中的指标项。 导出监控指标报表。 单击“导出”,Manager将生成指定时间范围内、已勾选的服务资源指标报表文件,请选择一个位置保存,并妥善保管该文件。 如果需要查看指定时间范围的监控指标对应的分布曲线图,请单击“查看”,界面将显示用户自定义时间范围内选定指标的分布曲线图。
  • 普通模式 普通模式的集群不同组件使用各自原生开源的鉴权行为,详细鉴权机制如表1所示。 在安装了Ranger服务的普通模式集群中,Ranger可以支持基于OS用户进行组件资源的权限控制,支持启用Ranger鉴权的组件包括:HBase、HDFS、Hive、Spark2x、Yarn。 表1 普通模式组件鉴权一览表 服务 是否鉴权 是否支持开关鉴权 IoTDB 鉴权 不支持修改 ClickHouse 鉴权 不支持修改 Flume 无鉴权 不支持修改 HBase 无鉴权 支持修改 HDFS 鉴权 支持修改 HetuEngine 无鉴权 不支持修改 Hive 无鉴权 不支持修改 Hue 无鉴权 不支持修改 Kafka 无鉴权 不支持修改 Loader 无鉴权 不支持修改 Mapreduce 无鉴权 不支持修改 Oozie 鉴权 不支持修改 Spark2x 无鉴权 不支持修改 Storm 无鉴权 不支持修改 Yarn 无鉴权 支持修改 ZooKeeper 鉴权 支持修改 CDL 无鉴权 不支持修改
  • 安全模式 大数据平台用户完成身份认证后,系统还需要根据实际权限管理配置,选择是否对用户进行鉴权,确保系统用户拥有资源的有限或全部权限。如果系统用户权限不足,需要由系统管理员为用户授予各个组件对应的权限后,才能访问资源。安全模式或者普通模式集群均提供鉴权能力,组件的具体权限项在两种模式中相同。 新安装的安全模式集群默认即安装了Ranger服务并启用了Ranger鉴权,用户可以通过组件的权限插件对组件资源的访问设置细粒度的安全访问策略。若不需使用Ranger进行鉴权,管理员可在服务页面手动停用Ranger鉴权,停用Ranger鉴权后,访问组件资源的时系统将继续基于 FusionInsight Manager的角色模型进行权限控制。 安全模式集群中,支持使用Ranger鉴权的组件包括:HDFS、Yarn、Kafka、Hive、HBase、Storm、Spark2x、Impala、HetuEngine、CDL。 从历史版本升级的集群,用户访问组件资源时默认不使用Ranger鉴权,管理员可在安装了Ranger服务后手动启用Ranger鉴权。 安全版本的集群所有组件默认统一对及访问进行鉴权,不支持关闭鉴权功能。
  • 可能原因 Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。 DBService服务异常。 Hive服务进程故障,如果告警由Hive进程故障引发,告警上报时间可能会延迟5分钟左右。 Hive服务和基础服务间的网络通信中断。 Hive的HDFS临时目录权限异常。 Hive节点本地磁盘空间不足。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.3.3 发布时间 2021-01-04 解决的问题 MRS 1.9.3.3 修复问题列表: MRS Manager 解决隔离节点问题 MRS大数据组件 解决Hive加载hook内存泄漏问题 MRS 1.9.3.2 修复问题列表: MRS大数据组件 解决通过sparksql和beeline进行insert overwrite操作时,旧文件无法进行trash问题 MRS 1.9.3.1 修复问题列表: MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件 解决Hive和Spark路径下adapter-hadoop-wrapper-file-system包版本错误问题 解决HBase服务Manager上保存多命名空间,后台不生效问题 新增HDFSWrapper支持AbstractFileSystem 补丁兼容关系 MRS 1.9.3.3补丁包中包含MRS 1.9.3版本发布的所有补丁内容。
  • 安装补丁的影响 安装MRS 1.9.3.3补丁期间会重启MRS Manager,滚动重启Hadoop、HDFS、Hive、Spark及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.3.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 普通模式(不启用Kerberos认证) 普通模式集群,MRS集群各组件使用原生开源的认证机制,一般为Simple认证方式。而Simple认证,在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”等)自动完成认证,管理员或业务用户不显示感知认证。而且客户端在运行时,甚至可以通过注入UserGroupInformation来伪装成任意用户(包括superuser),集群资源管理接口和数据控制接口在服务端无认证和鉴权控制,很容易被黑客利用和攻击。 所以在普通模式下,建议单用户场景下使用,必须通过严格限定网络访问权限来保障集群的安全。 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。
  • 安全模式(启用Kerberos认证) 安全模式的MRS集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和 域名 。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证,认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,客户端命令为kinit 用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。
  • 作业执行权限说明 对于开启Kerberos认证的安全集群,用户在MRS界面提交作业时,要先执行 IAM 用户同步操作,同步完成后会在MRS系统中产生同IAM用户名的用户。IAM同步用户是否有提交作业权限,取决于IAM同步时,用户所绑定的IAM策略,提交作业策略请参考IAM用户同步MRS集群说明章节中表1。 用户提交作业,如果涉及到具体组件的资源使用,如HDFS的目录访问、Hive表的访问等相关组件的权限时,需由admin(Manager管理员)用户进行授权,给提交作业用户赋予相关组件权限。 使用admin用户登录集群Manager界面。 参考管理MRS集群角色内容,增加用户具体需要的组件权限的角色。 参考管理MRS集群用户组修改提交作业用户所属的用户组,将新增的组件角色加入到该用户组中。 用户所在用户组绑定的组件角色修改后,权限生效需要一定时间,请耐心等待。
  • MRS作业分类 MRS作业是MRS为用户提供的程序执行平台,用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务,也可以通过集群客户端后台方式提交作业。 MRS作业处理的数据通常来源于OBS或HDFS,用户创建作业前需要将待分析数据上传至OBS系统,MRS使用OBS中的数据进行计算分析。 MRS也支持将OBS中的数据导入至HDFS中,使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。 目前MRS集群支持在线创建如下几种类型的作业: MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境,MRS支持提交MapReduce Jar程序。 Spark:基于内存进行计算的分布式计算框架,MRS支持提交SparkSubmit、Spark Script和Spark SQL作业。 SparkSubmit:提交Spark Jar和Spark Python程序,运行Spark Application计算和处理用户数据。 SparkScript:提交SparkScript脚本,批量执行Spark SQL语句。 Spark SQL:使用Spark提供的类似SQL的Spark SQL语句,实时查询和分析用户数据。 Hive:建立在Hadoop基础上的开源的 数据仓库 。MRS支持提交HiveScript脚本和直接执行Hive SQL语句。 Flink:提供一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。 HadoopStreaming:HadoopStreaming作业像普通Hadoop作业一样,除了可以指定输入和输出的HDFS路径的参数外,它还可以指定mapper和reducer的可执行程序。
  • MRS 3.2.0-LTS.1.1补丁基本信息 表7 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.1 发布时间 2023-04-07 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.2.0-LTS.1.1 修复问题列表: 解决Hudi性能优化,增加优化参数控制同步Hive schema问题。 解决Hudi表包含decimal字段做ddl变更时,执行clustering报错问题。 解决MRS 3.1.2版本创建的hudi bucket索引表,在升级后compaction作业失败问题。 解决Table can not read correctly when computed column is in the midst问题。 解决Hudi的schema evolution和历史版本不兼容问题。 解决Fink无法读取低版本Spark用bulk insert方式写入的timestamp类型数据的精度问题。 解决mor表delete数据,下游Flink读任务失败问题。 解决Flink流写mor开启同步compaction,包含decimal列,Spark添加一列后重启作业,触发compaction执行失败问题。 解决Flink写mor表同时sparksql查询,当Flink触发clean后,Spark查询失败问题。 解决mor表有rollback,执行cleanData后Flink schedule生成计划,spark run compaction报空指针问题。 解决Flink进行批量作业时权限不足导致作业失败问题。 解决Flink指定timestamp读Kafka异常的问题。 解决Flink写历史版本创建的bucket索引hudi表,索引数据错乱重复fileid问题。 解决Flink On HBase当条件为null时,使用错误下推Filter导致漏数问题。 解决Flink on hudi解析的时间范围如果超过2262-04-11 23:47:16,则会解析失败,报错overflow问题。 解决Spark/Flink写Hudi表,控制归档文件大小的参数不生效问题。 解决Spark任务,有多个ddl语句(drop,truncate,create)长时间执行不结束问题。 解决Spark建mor表带timestamp,Flink流读数据有误,相差8h问题。 解决cow/mor表执行完drop partition后,首次执行delete报错,堆栈异常问题。 解决datasource写Hudi表名和同步的Hive表明不一致,写入失败,sql写location指定到一个存量cow表目录,表名不一致,insert成功的问题。 CDL链路hudi-dws性能优化。 解决CDL升级后业务用户未添加hadoop组,任务启动失败问题。 解决CDL hudi-dws链路配置max.commit.number参数时,偶现同步数据丢失问题。 解决当CDL存在连接源端库失败的作业,task线程泄漏,导致作业启动超时问题。 解决CDL Hudi connector代码中增加hoodie.datasource.hive_sync.skip_sync_schema参数,默认为true,优化元数据同步性能,减少性能毛刺问题。 解决CDL读Hudi表出现404失败,找不到rollback.requested问题。 解决CDL Task阻塞导致所有任务Task失败问题。 解决Yarn的jdbcserver资源超长时间不释放问题。 补丁兼容关系 MRS 3.2.0-LTS.1.1补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.2.0-LTS.1.2补丁基本信息 表6 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.2 发布时间 2023-05-10 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.2.0-LTS.1.2 修复问题列表: 解决Manager无法创建带点字符用户问题。 解决IAM同步的用户组无法添加Manager页面上创建的用户问题。 解决夏令时时间下组件on obs功能不可用问题。 解决在Manager页面创建备份任务到obs时参数校验异常问题。 解决通过API接口提交Spark作业时的日志打印问题。 解决修改ClickHouse索引列导致进程重启问题。 解决在Manager页面租户管理中动态资源计划显示异常问题。 解决修改Clickhouse配置时创建的Zookeeper连接不释放问题。 解决在Manager页面ClickHouse组件修改角色添加数据库的create权限,导致已有表的自定义权限丢失问题。 补丁兼容关系 MRS 3.2.0-LTS.1.2补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.2.0-LTS.1.3补丁基本信息 表5 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.3 发布时间 2023-08-04 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性 Manager支持指定节点进行退服入服 MRS集群支持对接LakeFormation MRS对接LakeFormation操作指导,请参见:配置LakeFormation数据连接。 LakeFormation使用流程简介以及约束,请参见:LakeFormation使用流程简介。 Guardian新增开启accesslabel开关 Guardian支持自定义文件生成器 支持添加RangerKMS实例,提供 数据加密 服务 管控面提交FlinkSQL作业支持元数据管理 解决的问题 MRS 3.2.0-LTS.1.3修复问题列表: 解决Hudi修改long到string后run compaction,Spark读失败问题。 解决Hudi修改schedule后之前的commit文件被清理,spark compaction失败问题。 解决Hudi表有修改列名、删除重新添加列,只进行schedule,spark compaction失败问题。 解决Hudi增删改列后run compaction,cdl hudi2dws作业失败报空指针问题。 解决Hudi写log会从文件中读schema,log越大读取越慢,影响写入效率问题。 解决Hudi subtasks处理数据倾斜,导致300并发的场景下部分资源闲置问题。 解决Hudi stg_rtd_hah_ae_t_detail_t表异步compaction失败问题。 解决Flink指定COMPLEX创建的hudi表,spark写失败,报KeyGenerator冲突问题。 解决Flink提交作业错误提示问题。 解决Flink作业异常退出,同一个key的数据做分区变更报NPE的问题。 解决Flink作业读hudi log文件报错Did not find the magic bytes at the start of block的问题。 解决 DataArts Studio 作业配置后未从上一个checkpoint重启Flink的问题。 解决管控面提交Spark作业长时间运行后访问obs报403问题。 解决CDL appid刷新错误,任务显示失败,但实际是运行中的问题。 解决CDL Topic Creation失败,报Topic已存在的问题。 解决CDL单AZ断网场景,出现作业自动停止的问题。 解决CDL任务一直处于正常状态,历史任务id存在失败,仍然上报告警问题。 解决CDL单AZ断网后,作业失败,查看appid为空,但是在yarn页面查看任务实际是存在并运行中的问题。 补丁兼容关系 MRS 3.2.0-LTS.1.3补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.2.0-LTS.1.5补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.5 发布时间 2023-10-23 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性 支持在Hue WebUI中使用HetuEngine SQL编辑器。 运维巡检工具查询优化。 Flink流读Hudi新增了对消息滞留时间和消息堆积时间的监控。 解决的问题 MRS 3.2.0-LTS.1.5修复问题列表: 解决Spark-JDBC偶现多租户模式下,driver端口与thriftserver端口一致冲突引发一系列问题。 解决Spark空闲的SparkJDBC任务超过30分钟,没有结束,资源未释放浪费资源问题。 解决HetuEngine在存散分离场景下映射方式对接OBS,查询大数据量时报错的问题。 补丁兼容关系 MRS 3.2.0-LTS.1.5补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.2.0-LTS.1.4补丁基本信息 表4 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.4 发布时间 2023-10-16 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性 支持在Hue WebUI中使用HetuEngine SQL编辑器。 运维巡检工具查询优化。 解决的问题 MRS 3.2.0-LTS.1.4修复问题列表: 解决Flink读MySQL作业出现的类冲突问题。 解决Flink Server提交SQL作业时解码异常错误。 解决DataArts Studio提交Flink SQL作业报StackOverflow错误。 解决普通集群使用RestA调用FlinkServer的jobs/action时报错。 解决Flink客户端不支持-yD或-D配置keytab和principal的问题。 解决HetuEngine查询Flink写入的HudiMOR表数据为空的问题。 解决HetuEngine对Hudi的bucket索引mor表和mor_rt表查询失败问题。 解决HetuEngine查询Hive的LZ4压缩格式数据失败问题。 解决HetuEngine查询Hudi的OBS表失败问题。 解决HetuEngine多hashkey时,查询条件包含单个hashkey时,无法查出结果的问题。 解决Hudi数据源add columns/drop columns之后HetuEngine查询失败的问题。 解决Hudi在replacement场景下无法正常归档文件问题。 解决Hudi在InternalSchema转AvroSchema未去掉元字段导致流任务更新数据失败问题。 解决Hudi版本升级后出现Spark读Hudi表和run compaction失败问题。 解决Hudi SQL执行call run_clustering_Mor后,rt/ro表的log数据丢失问题。 解决Hudi ro表compaction期间数据查询不出来问题。 解决Hudi表带decimal字段做ddl变更,在执行clustering报错问题。 解决Hudi Cow/mor表执行完drop partition后,首次执行delete报堆栈异常的问题。 解决Hive on Tez查询Hudi的schema演进表报错,需要适配默认InputFormat切分方式问题。 解决Spark/Flink写Hudi表,控制归档文件大小的参数不生效的问题。 解决Hudi mor表,log中1900前的timestamp数据错误问题。 解决HetuEngine查询Hudi数据重复问题。 解决Manager中12小时以上监控数据无法导出的问题。 解决Manager中节点磁盘使用率和磁盘读速率无法显示一周数据的问题。 解决弹性伸缩场景下操作更新集群拓扑时,全表查询TBL_HISTORY_TOPO LOG Y导致controller触发OOM问题。 解决弹性伸缩过程中出现Metaspace内存不足触发agent重启的问题。 解决弹性伸缩场景下OMA进程异常无法采集指标,导致扩缩容任务异常问题。 解决大集群中监控数据丢失问题。 解决Manager AD对接后同步用户失败问题。 解决集群配置Ranger元数据外置后RangerAdmin实例启动失败问题。 对接LakeFormation,policysync同步策略失败整改。 解决Spark JDBC模式执行插入耗时过久的问题。 解决Hudi-Connector支持bucket裁剪性能优化问题。 补丁兼容关系 MRS 3.2.0-LTS.1.4补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.2.0-LTS.1.7补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.7 发布时间 2024-02-21 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.2.0-LTS.1.7修复问题列表: 解决Spark子查询当做列字段执行SQL任务时Ranger鉴权报错。 解决Flink写Hudi失败时,作业从checkpoint恢复失败的问题。 补丁兼容关系 MRS 3.2.0-LTS.1.7补丁包中包含所有MRS 3.2.0-LTS.1版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 参考信息 相关参数获取方法如下: 在操作系统中执行以下命令采集数据: iostat -x -t 1 1 其中: “avgqu-sz”为磁盘队列深度。 “r/s”和“w/s”之和为“iops”。 “rkB/s”和“wkB/s”之和为带宽。 “%util”为“ioutil”。 svctm的计算方法为: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) MRS 2.x及以前版本: 如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 MRS 1.9.3.10及之后补丁版本: 当检测周期粒度为30s时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 。 当检测周期粒度为300s时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • MRS集群数据备份恢复概述 Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。 MRS 3.x及之后版本,备份功能支持将数据备份至本地磁盘(LocalDir)、本端HDFS(LocalHDFS)、远端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服务器(SFTP)、OBS,具体操作请参考备份MRS集群组件数据。 MRS 3.1.0及之后版本才支持备份数据到OBS。 备份恢复任务的使用场景如下: 用于日常备份,确保系统及组件的数据安全。 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。 表1 根据业务需要备份元数据(MRS 2.x及之前版本) 备份类型 备份内容 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LdapServer 备份用户信息,包括用户名、密码、密钥、密码策略、用户组信息。 DBService 备份DBService管理的组件(Hive)的元数据。 NameNode 备份HDFS元数据。 表2 根据业务需要备份Manager配置数据(MRS 3.x及之后版本) 备份类型 备份内容 备份目录类型 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS SFTP OBS 表3 根据业务需要备份组件元数据或其他数据(MRS 3.x及之后版本) 备份类型 备份内容 备份目录类型 DBService 备份DBService管理的组件(Loader、Hive、Spark、Oozie、Hue、CDL)的元数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS SFTP OBS Flink (适用于MRS 3.2.0及以后版本) Flink的元数据。 LocalDir LocalHDFS RemoteHDFS Kafka Kafka的元数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS OBS NameNode 备份HDFS元数据。添加多个NameService后,支持不同NameService的备份恢复功能且备份恢复操作与默认实例“hacluster”一致。 LocalDir RemoteHDFS NFS CIFS SFTP OBS Yarn 备份Yarn服务资源池相关信息。 HBase HBase系统表的tableinfo文件和数据文件。 IoTDB IoTDB的元数据。 LocalDir NFS RemoteHDFS CIFS SFTP ClickHouse ClickHouse的元数据。 LocalDir RemoteHDFS 表4 根据业务需要备份特定组件业务数据(MRS 3.x及之后版本) 备份类型 备份内容 备份目录类型 HBase 备份表级别的用户数据。 RemoteHDFS NFS CIFS SFTP HDFS 备份用户业务对应的目录或文件。 说明: 加密目录不支持备份恢复。 Hive 备份表级别的用户数据。 IoTDB 备份IoTDB业务数据。 RemoteHDFS ClickHouse 备份表级别的用户数据。 RemoteHDFS MRS 3.x及之后版本,需要特别说明的是,部分组件不提供单独的数据备份与恢复功能: Kafka支持副本特性,在创建主题时可指定多个副本来备份数据。 CDL的数据存储在DBService与Kafka服务中,系统管理员可以通过创建备份DBService和Kafka的任务来备份数据。 Mapreduce和Yarn的数据存放在HDFS上,故其依赖HDFS提供备份与恢复即可。 ZooKeeper中存储的业务数据,其备份恢复能力由各上层组件按需独立实现。
  • MRS集群数据备份恢复原理 任务 在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、HBase(MRS 3.x及之后版本)、Hive和NameNode数据时,无法访问集群。 每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。 MRS 3.x及之后版本,备份任务提供全量备份或增量备份的策略,云数据备份任务不支持增量备份策略。如果备份的路径类型是NFS或CIFS,不建议使用增量备份功能。因为在NFS或CIFS备份时使用增量备份时,每次增量备份都会刷新最近一次全量备份的备份数据,所以不会产生新的恢复点。 MRS 2.x及之前版本,备份任务提供全量备份或增量备份的策略,增量备份策略支持HDFS和Hive备份任务,OMS、LdapServer、DBService和NameNode备份任务默认只应用全量备份策略。 任务运行规则: 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。 周期任务锁定时无法自动执行,需要手动解锁。 OMS、LdapServer(MRS 2.x及之前版本)、DBService、Kafka(MRS 3.x及之后版本)和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。 用户在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。 MRS 2.x及之前版本,系统默认创建了一个间隔为24小时的周期备份任务“default”,支持全量备份OMS、LdapServer、DBService和NameNode数据到Linux本地磁盘。 MRS 3.x及之后版本,系统默认创建间隔为1小时的周期备份任务“default-oms”、“default-集群ID”,支持全量备份OMS及集群的DBService、NameNode等元数据到本地磁盘。 快照(MRS 3.x及之后版本) 系统通过快照技术,快速备份数据。快照包含HBase快照、HDFS快照。 HBase快照 HBase快照是HBase表在特定时间的一个备份,该备份文件不复制业务数据,不影响RegionServer。HBase快照主要复制表的元数据,包含table descriptor,region info和HFile的引用信息。通过这些元数据信息可以恢复快照时间点之前的数据。 HDFS快照 HDFS快照是HDFS文件系统在特定时间点的只读备份副本,主要用于数据备份、用户误操作保护和灾难恢复的场景。 任意HDFS目录均可以配置启用快照功能并创建对应的快照文件,为目录创建快照前系统会自动启用此目录的快照功能。创建快照不会对正常的HDFS操作有任何影响。每个HDFS目录最多可创建65536个快照。 如果一个HDFS目录已创建快照,那么在快照完全删除以前,此目录无法删除或修改名称。该目录的上级目录或子目录也无法再创建快照。 DistCp(MRS 3.x及之后版本) DistCp(distributed copy)是一个用于在本集群HDFS中或不同集群HDFS间进行大量数据复制的工具。在HBase、HDFS或Hive元数据的备份恢复任务中,如果选择将数据备份在备集群HDFS中,系统将调用DistCp完成操作。主备集群请选择安装相同版本的MRS软件版本并安装集群系统。 DistCp使用Mapreduce来影响数据的分布、异常处理及恢复和报告,此工具会把指定列表中包含的多个源文件和目录输入不同的Map任务,每个Map任务将复制列表中指定文件对应分区的数据。 使用DistCp在两个集群的HDFS间进行数据复制,集群双方需要分别配置互信(同一个FusionInsight Manager管理下的集群不需要配置互信)和启用集群间复制功能。集群数据备份到另一个集群的HDFS时,需要安装Yarn组件,否则备份失败。 本地快速恢复(MRS 3.x及之后版本) 使用DistCp将本集群HBase、HDFS和Hive数据备份在备集群HDFS中以后,本集群HDFS保留了备份数据的快照。用户可以通过创建本地快速恢复任务,直接从本集群HDFS的快照文件中恢复数据。 NAS(MRS 3.x及之后版本) NAS(Network Attached Storage)是一种特殊的专用数据存储服务器,包括存储器件和内嵌系统软件,可提供跨平台文件共享功能。利用NFS(支持NFSv3、NFSv4)和CIFS(支持SMBv2、SMBv3)协议,用户可以连通MRS的业务平面与NAS服务器,将数据备份至NAS或从NAS恢复数据。 数据备份至NAS前,系统会自动将NAS共享地址挂载为备份任务执行节点的本地分区。在备份结束后,系统会卸载备份任务执行节点的NAS共享分区。 为防止备份恢复失败,数据备份及恢复期间,请勿访问NAS服务器挂载至本地的共享地址,如:“/srv/BigData/LocalBackup/nas”。 业务数据备份至NAS时,会使用DistCp。
共100000条