华为云用户手册

  • 升级客户端 如果有使用自主安装的客户端(集群内、外新下载客户端),需要执行客户端升级操作。 登录集群主节点并执行以下命令: cd /opt/Bigdata/patches/{ MRS 补丁版本号}/download/ 将补丁安装包拷贝到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 例如: scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 执行以下命令创建补丁目录并解压补丁包: mkdir /opt/{MRS补丁版本号} tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号} 执行客户端补丁升级。 登录客户端所在节点,并执行以下命令: cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh upgrade {客户端安装目录} 例如: sh upgrade_client.sh upgrade /opt/client/
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.2.0-LTS.1.10/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在 FusionInsight Manager界面上重启Spark的JD BCS erver2x实例。
  • 升级组件安装包 该操作可以解决添加服务、添加实例、新下载客户端场景下的补丁安装。 登录集群主 OMS 节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.2.0-LTS.1.10/package sh update_package.sh 登录集群备OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.2.0-LTS.1.10/package sh update_package.sh
  • 解锁MRS集群LDAP管理账户 管理员在LDAP用户和管理账户被锁定时,需要在管理节点解锁集群LDAP用户“cn=pg_search_dn,ou=Users,dc=hadoop,dc=com”以及LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”和“cn=krbadmin,ou=Users,dc=hadoop,dc=com”。 Ldap用户或管理账户连续使用错误密码操作Ldap次数大于5次时,会造成LDAP用户或管理账户被锁定。用户被锁定之后,5分钟后会自动解锁。 该操作仅适用于MRS 3.x及之后版本。 以omm用户登录主管理节点。 执行以下命令,切换到目录: cd ${BIGDATA_HOME}/om-server/om/ldapserver/ldapserver/local/script 执行以下命令,解锁LDAP用户或管理账户: ./ldapserver_unlockUsers.sh USER_NAME 其中,USER_NAME表示将要解锁的用户名称。 例如,解锁LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”的方法如下: ./ldapserver_unlockUsers.sh krbkdc 运行脚本之后,在ROOT_DN_PASSWORD之后输入krbkdc用户密码,显示如下结果,说明解锁成功: Unlock user krbkdc successfully. 父主题: 解锁MRS集群用户
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.0.5.1 发布时间 2021-08-14 解决的问题 MRS 3.0.5.1 修复问题列表: MRS Manager 解决SQL语句过长导致作业管理界面提交SparkSQL作业失败的问题 解决带有注释的SQL语句作业执行失败问题 大数据组件 解决ClickHouse集群 IAM 用户同步失败问题 解决集群内Flume客户端无法使用委托访问OBS问题 解决YARN开源原生界面作业占用队列资源百分比不显示问题 解决YARN开源原生界面查看作业日志时显示不全的问题 解决Hive作业在HDFS上临时文件残留问题 解决开源Sqoop 1.4.7版本对接MRS Hive服务兼容性问题 解决Hive on MR查询Avro表失败问题 解决HiveServer加载UDF场景可能出现内存泄漏问题 解决Hive和SparkSQL的时间函数执行结果不一致问题 解决Hive on Tez执行Map-Join结果不正确问题(HIVE-20187) 解决beeline -p命令执行报错问题 解决Hue格式化SQL失败问题 解决因Hue和Oozie时区不兼容导致Oozie作业无法提交问题 解决Hue界面执行含变量的Hive SQL时变量值下拉框无法使用的问题 解决Hue连接Hive服务查询时session没有正确关闭导致最终无法查询的问题 解决鲲鹏机型Impala查询Kudu表偶现查询卡顿的问题 解决Kudu组件客户端安装问题 解决鲲鹏机型KuduMaster偶现自动重启问题 解决Ranger界面无法正常搜索问题 解决Ranger界面登出后未重定向到登录页面的问题 补丁兼容关系 MRS 3.0.5.1补丁包中包含所有MRS 3.0.5单点问题修复补丁。
  • 安装补丁的影响 MRS 3.0.5.1补丁安装过程中会自动重启Executor、Controller进程,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.0.5.1补丁安装完成后需要在FusionInsight Manager Web界面重启Spark2x、Hive、YARN、Impala、Kudu、Hue服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.0.5.1补丁需要集群管理员手工下载该补丁并在集群后台任意一个Master节点执行安装。操作步骤请参考补丁文件包内README.md文件。 集群扩容后需要再次在Master节点执行该补丁安装步骤,为新扩容节点安装该补丁,并重启相应服务。
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.0.5.1_Patch_All_20210724.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3.0.5.1_Patch_All_20210724.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.0.5.1_Patch_All_20210724.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.0.5.1_Patch_All_20210724.tar.gz
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.9 发布时间 2020-08-21 解决的问题 MRS 2.1.0.9 修复问题列表: MRS Manager 解决MRS Executor内存溢出问题 优化扩容流程 解决sparkSql包含空格的情况拼接sql错误问题 解决偶现HiveSql作业提交失败问题 优化keytab文件下载的权限控制 大数据组件 解决Presto角色名称包含大写字母,权限模型未生效问题 解决Hive删除分区慢的问题 解决Spark长时间运行Token过期问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,E CS 接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.9补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
  • 扩容节点安装补丁 将从OBS路径中下载的补丁(MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz)工具放至主OMS节点的“/home/omm”目录下。 执行如下命令下载补丁,如果已存在,可跳过此步骤。 wget ${补丁下载地址} 补丁下载地址请参考补丁下载地址。 修改相应权限后,切到omm用户下,并解压补丁工具(MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz)至当前目录“/home/omm”(如果已存在,可跳过此步骤)。 chown omm:wheel -R /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz su - omm cd /home/omm tar -zxf MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz 在ips.ini中配置需要打补丁的节点IP(只填写当前集群扩容节点IP)。 cd /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430 vi ips.ini 每行配置一个IP,中间不能有空行。 执行脚本安装补丁。 cd /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430 chmod 755 ./* -R find ./ -type f -print0 | xargs -0 dos2unix nohup sh install.sh upgrade & 通过tail -f nohup.out查看执行情况(打印“upgrade patch success.”表示执行完成)。
  • 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS Manager上正在运行的任务,升级前请确认已经关闭弹性伸缩,并且MRS Manager上没有正在运行的任务。 安装补丁过程中,不允许在作业管理页面提交作业。 安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法。重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。
  • 安装补丁 将从OBS路径中下载的补丁(MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz)工具放至主OMS节点的“/home/omm”目录下。 执行如下命令下载补丁,如果已存在,可跳过此步骤。 wget ${补丁下载地址} 补丁下载地址请参考补丁下载地址。 修改相应权限后,切到omm用户下,并解压补丁工具(MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz)至当前目录“/home/omm”。 chown omm:wheel -R /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz su - omm cd /home/omm tar -zxf MRS_3.1.0_TROS_Tools_patch_20240430.tar.gz 在ips.ini中配置需要打补丁的节点IP(当前集群所有节点IP)。 cd /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430 vi ips.ini 每行配置一个IP,中间不能有空行。 执行脚本安装补丁。 cd /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430 chmod 755 ./* -R find ./ -type f -print0 | xargs -0 dos2unix nohup sh install.sh upgrade & 通过tail -f nohup.out查看执行情况(打印“upgrade patch success.”表示执行完成)。
  • 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS Manager上正在运行的任务,升级前请确认已经关闭弹性伸缩,并且MRS Manager上没有正在运行的任务。 安装补丁过程中,不允许在作业管理页面提交作业。 安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法。重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 回退HDFS上的组件包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.3.1-LTS.1.2/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令进行回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 回退完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 升级组件安装包 该操作可以解决添加服务、添加实例、新下载客户端场景下的补丁安装。 登录集群主OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh update_package.sh 登录集群备OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh update_package.sh
  • 回退组件安装包 若安装时执行了升级组件安装包步骤,则卸载后需要回退 登录集群主OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh rollback_package.sh 登录集群备OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh rollback_package.sh
  • 补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.1.0.0.16 发布时间 2024-11-25 解决的问题 提交Spark SQL作业,中文冒号被转换成英文冒号。 Spark SQL外表动态分区执行insert overwrite报错。 Spark JDBC产生空指针报错。 Spark JDBCServer任务并发长稳运行出现端口冲突,导致连接失败。 Spark Streaming写HBase换盘场景中,加入黑名单中的Executor会残留。 MRS集群Spark2x的“listing.ldb”文件夹不自动清理,导致根目录写满。 Spark数据保护黑名单中防止创建表Location指定路径到库后,导致删除表之后库数据丢失。 Spark启用Ranger鉴权场景中的show tables性能增强。 Spark查询数据量与Hive查询数据量不一致。 DGC并发提交Flink作业偶现下载keytab文件失败。 Impala异常重启。Impala queries页面采集数据时和提交SQL查询时读取了同一个vector容器,导致查询queries数据时coredump重启。 开启haproxyfloatname的Kerberos Principal后,Impala服务不可用,Impalad实例亚健康。 Yarn ResourceManager内存占满触发Full GC 100+s,不能及时进行主备倒换。 Yarn NodeManager心跳丢失。 Yarn ResourceManager偶现空指针报错导致重启。 Yarn ResourceManager内存泄漏。 Yarn客户侧ResourceManager报错空指针并发生主备倒换。 重启Router或者NameNode时延高时,作业有概率在new状态卡顿。 结束有预留资源的任务后,Yarn上预留资源累加不释放。 主备容灾场景中,备集群MapReduce临时任务日志无法进行定期删除,使得日志目录会堆满,导致容灾任务失败。 Yarn资源池可用资源指标异常,导致弹性伸缩触发异常。 Yarn ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存,可能是内存泄漏。 HDFS客户端leaserenewer线程泄漏。 HDFS重启后权限属性丢失,导致数据无法读取。 备NameNnode处于安全模式,但集群没有上报告警。 Hadoop安全漏洞问题修改。 HBase NettyRpc connection未正常关闭。 HBase WAL未正常滚动,导致产生超大WAL。 HBase Netty连接存在内存泄漏。 HBase健康检查脚本调用超时导致误上报服务不可用告警。 HBase支持过载保护流控和告警。 HBase主备倒换后,RSGroup显示DEAD REGIONSERVERS错误。 Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。 Manager主机资源概况页面中条数切换后数据不显示。 Manager创建用户调用adduser.sh脚本不输出日志。 NodeAgent进程偶现故障,不发送心跳,产生服务不可用告警。 Manager主备节点同步数据异常,pms目录下存在脏数据。 集群节点隔离后频繁上报节点故障告警。 集群退订节点过程中偶现产生误告警。 Manager上配置NAS备份进程不结束,导致节点内存升高。 NodeAgent偶现会修改nodagent.properties,有可能导致文件丢失。 MRS集群节点内存占满,磁盘出现踢盘,盘分区丢失。 LdapServer数据一致性检查增强。LDAP主备关键数据不一致,未能及时上报告警。 Kafka Topic名称带有短横线分隔符,磁盘隔离后自动恢复失败。 Kafka新增时延监控转告警,包括Topic数量监控、分区数量监控、请求时延监控,以增强定位定界功能。 Kafka慢盘隔离场景中,当data1目录被隔离后,data1x目录会被误隔离。 ClickHouse TTL到期的过期数据未清理。 ClickHouse内存越界导致服务重启。 ClickHouse数据磁盘存在误隔离。 ClickHouse服务健康检查机制优化。 ClickHouse多实例负载不均衡。 未开启Kerberos认证的集群,“/tmp/hive-scratch”目录被删后Hive重建的权限不正确,导致Hive一直异常。 重启Zookeeper节点后Hive SQL执行失败。 Hive on Spark作业并发较高时,会占用很高的Master节点内存。 Tez引擎在开启和关闭“hive.merge.nway.joins”运行结果不一致。 Hive viewfs修改表路径后,指定分区insert、load插入数据,分区路径会发生改变。 Hive MetaStore偶现死锁。 Hive varchar类型数据查询不支持下推,并发较大时可能导致内存问题。 Hive支持对自读自写的SQL进行拦截。 Hive需要把.db库加入数据保护黑名单中,防止创建表Location指定路径到库后,删除表后导致库数据丢失。 Hive并发overwrite写入后,执行overwrite的任务支持拦截。 Hive并发插入不同分区数据,存在分区数据丢失问题。 Hive监控告警增强,新增MetaStore只操作DB接口的耗时、HiveServer建立连接/关闭连接耗时 、MetaStore操作DB接口的耗时监控。 Hive新增MetaStore连接数监控告警、SQL平均运行时间监控、扫描分区数监控和user、IP维度监控。 Hive开启并发执行时,偶现insert执行结果无数据。 消除Kudu Tserver版本号显示的dirty。 Kudu支持慢盘隔离。 Manager慢盘检测脚本日志打印增加压缩归档功能。 补丁兼容关系 MRS 3.1.0.0.16补丁包中包含所有MRS 3.1.0版本单点问题修复补丁。 父主题: MRS 3.1.0.0.16补丁说明
  • 回退HDFS上的组件包 登录安装补丁时升级HDFS上的组件包的节点,执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.1.0.0.16/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令进行回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 回退完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.1.0.0.16/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.3 发布时间 2020-04-29 解决的问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.3补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 安装补丁的影响 安装MRS 2.1.0.3补丁期间会重启MRS Manager,滚动重启Hive、Spark、HDFS、Yarn、Mapreduce、Presto、HBase以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 2.1.0.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 普通模式(不启用Kerberos认证) 普通模式集群,MRS集群各组件使用原生开源的认证机制,一般为Simple认证方式。而Simple认证,在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”等)自动完成认证,管理员或业务用户不显示感知认证。而且客户端在运行时,甚至可以通过注入UserGroupInformation来伪装成任意用户(包括superuser),集群资源管理接口和数据控制接口在服务端无认证和鉴权控制,很容易被黑客利用和攻击。 所以在普通模式下,建议单用户场景下使用,必须通过严格限定网络访问权限来保障集群的安全。 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.2.2 发布时间 2021-05-18 解决的问题 MRS Manager 解决sudo提权漏洞 解决扩容刷新队列会导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡住问题 Hive中增加自研的接口 解决map.xml无法读取的问题 Hive har特性优化 解决ZK脏数据导致Yarn服务不可用问题 OBS包升级 JDK版本升级 解决Yarn的ResourceManager内存泄漏问题 增加对调用ECS getSecuritykey接口异常的监控 优化刷新临时AK/Sk流程 解决ResourceManager内存泄露问题 解决Hive union语句合并小文件报错问题 解决Hadoop的task任务报空间不足失败问题 解决hive作业成功无数据生成问题 补丁兼容关系 无。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.3.1 发布时间 2020-09-04 解决的问题 MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件 解决Hive和Spark路径下adapter-hadoop-wrapper-file-system包版本错误问题 解决HBase服务Manager上保存多命名空间,后台不生效问题 新增HDFSWrapper支持AbstractFileSystem 补丁兼容关系 无。
  • 安全模式(启用Kerberos认证) 安全模式的MRS集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和 域名 。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证,认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,客户端命令为kinit 用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。
  • 安装补丁的影响 安装MRS 1.9.2.2补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.2.2补丁安装后,需要重启OMS服务。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 安装补丁的影响 安装MRS 1.9.3.1补丁期间会重启MRS Manager,滚动重启Hadoop、HDFS、Hive、Spark及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.3.1补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 配置集群外节点用户访问普通模式集群资源 以root用户登录到需要添加用户的节点。 执行以下命令: rpm -qa | grep pam rpm -qa| grep krb5-client 界面一共显示以下rpm包: pam_krb5-32bit-2.3.1-47.12.1 pam-modules-32bit-11-1.22.1 yast2-pam-2.17.3-0.5.211 pam-32bit-1.1.5-0.10.17 pam_mount-32bit-0.47-13.16.1 pam-config-0.79-2.5.58 pam_krb5-2.3.1-47.12.1 pam-doc-1.1.5-0.10.17 pam-modules-11-1.22.1 pam_mount-0.47-13.16.1 pam_ldap-184-147.20 pam-1.1.5-0.10.17 krb5-client-1.6.3 检查操作系统实际是否已安装清单中的rpm包? 是,执行5。 否,执行4。 从操作系统镜像中获取缺少的rpm包,并上传文件到当前目录,然后执行以下命令安装rpm包: rpm -ivh *.rpm 安装的RPM包可能带来安全风险,请用户对操作系统进行加固时考虑安装这些RPM包所带来的风险。 安装完成后执行5。 执行以下命令,配置pam使用Kerberos认证。 pam-config --add --krb5 如果需要在非集群节点取消Kerberos认证与系统用户登录,以“root”用户执行pam-config --delete --krb5命令。 解压认证凭据文件得到“krb5.conf”,并使用WinSCP将此配置文件上传到集群外节点的“/etc”目录,执行以下命令设置权限使其他用户可以访问,例如“604”: chmod 604 /etc/krb5.conf 以root用户继续在连接会话中执行以下命令为“人机”用户添加对应的操作系统用户,并指定用户主组为“root”。 此操作系统用户密码与在Manager创建“人机”用户时设置的初始密码相同。 useradd 用户名 -m -d /home/admin_test -g root -s /bin/bash 例如,“人机”用户名为“admin_test”,执行以下命令: useradd admin_test -m -d /home/admin_test -g root -s /bin/bash 第一次使用新添加的操作系统用户通过SSH协议登录节点时,首次输入用户密码系统提示密码过期,第二次输入用户密码后系统提示修改密码。请输入一个同时满足节点操作系统及集群密码复杂度的新密码。
  • 配置告警屏蔽及告警平滑次数 该操作仅适用MRS 3.5.0及之后版本集群。 MRS支持在后台配置告警屏蔽状态和平滑次数,告警产生次数小于等于平滑次数时不上报告警信息。 使用PuTTY工具,以omm用户登录主OMS节点。 执行以下命令修改alarm_filter_config.json配置文件,若此文件不存在,则新建此文件。 vi $BIGDATA_HOME/om-server/OMS/workspace/conf/fms/alarm_filter_config.json 根据实际需要配置或新增参数。 告警ID:待配置告警的ID,例如“12016”。 is_filtered:是否屏蔽告警。“true”表示屏蔽告警,不上报告警;“false”表示经过平滑次数后上报。 smoothing_times:平滑次数,告警产生次数小于等于此平滑次数时,不上报告警信息,取值为整型且大于0。 “is_filtered”参数优先级高于“smoothing_times”参数。 例如配置如下,表示屏蔽“12016”告警,“12017”告警在产生次数超过3次后上报: { "12016": { "is_filtered": true, "smoothing_times": 1 }, "12017": { "is_filtered": false, "smoothing_times": 3 } } 使用omm用户重启主OMS节点上fms服务,使修改生效。 sh $BIGDATA_HOME/om-server/OMS/workspace/bin/omm_s_fm_ctl.sh restart 使用PuTTY工具,以omm用户登录备OMS节点,执行2~3。
  • SQL防御功能介绍 MRS在主力SQL引擎(Hive、Spark、HetuEngine、ClickHouse、Doris(MRS 3.5.0及之后版本))中增加SQL防御能力,基于用户可理解的SQL防御策略,实现对典型大SQL、低质量SQL的主动防御,包括事前拦截和事中熔断,并不强制改变用户的SQL提交方式、SQL语法,对业务零改动且易落地。 支持管理员界面化配置SQL防御策略,同时可支持防御规则的查询和修改。 每个SQL引擎在进行SQL业务响应、执行过程中,基于SQL防御策略进行主动防御行为。 管理员可将SQL防御行为在“提示”、“拦截”、“熔断”选项之间进行灵活切换,系统会将发生的SQL防御事件实时写入到防御审计日志中。运维人员可进行 日志分析 ,评估现网SQL质量,提前感知潜在SQL风险,并做出有效预防措施。 SQL防御规则包含以下类型: 静态拦截规则:基于纯粹的SQL语法规则进行拦截或提示。 动态拦截规则:基于与数据表的统计信息、元数据信息等内容有关的规则进行拦截或提示。 运行熔断规则:基于SQL语句运行时的系统动态信息(如CPU、内存、IO等)的规则进行阻断。 对于静态拦截规则、动态拦截规则,系统在SQL请求满足条件时,可对该请求进行中止或者提示处理。对于运行熔断规则,系统在SQL请求满足条件时,会阻断该SQL任务。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全