MAPREDUCE服务 MRS-MRS 3.1.0补丁说明:MRS 3.1.0.0.8补丁基本信息

时间:2024-08-18 05:11:11

MRS 3.1.0.0.8补丁基本信息

表6 补丁基本信息

补丁号

MRS 3.1.0.0.8

发布时间

2023-08-08

补丁约束

如果集群有安装Kudu组件,不能打此补丁;

如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。

安装前处理

  • 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址
  • 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。

新特性和优化

新特性和优化

支持运维巡检特性

解决的问题

解决的问题

  • Manager:

    解决扩缩容过程中会更新部分实例的log4j.properties文件,每次更新都会导致对应实例进程中出现新的线程,造成线程泄漏问题

    解决作业管理提交Spark作业写obs时偶现403问题

    解决作业管理提交Spark访问HBase作业失败问题

    解决作业管理提交作业后,HDFS上mrs/mrsjob/目录下存在大量application子目录未清理的问题

    解决升级log4j后,作业管理提交Hive作业异常,jar包冲突的问题

    解决审计日志不老化导致磁盘满的问题

    解决主机/服务/实例增删等操作更新集群拓扑时,全表查询TBL_HISTORY_TOPO LOG Y导致controller触发OOM的问题

    解决屏蔽元数据未配置周期备份到第三方服务器的任务告警不生效的问题

    解决开启日志收集,导致tmp目录磁盘空间占满的问题

    解决取消隔离后Kafka存储路径配置改变的问题

    解决弹性伸缩过程中出现Metaspace内存不足触发agent重启的问题

    解决扩缩容时NodeManager退服/入服后修改资源池配置,会导致excludeHosts下发参数错误的问题

    解决master节点keystore.xml文件内容丢失导致DBService实例异常问题

    解决作业管理提交作业后/mrs/sql-result/spark-script/目录未做清理的问题

  • Flink

    解决使用FlinkServer提交作业时,显示提交失败,但是Yarn上作业是RUNNING的问题

    解决FlinkServer使用println打印日志将磁盘打满导致Yarn不可用的问题

    解决Flink客户端ssl证书过期导致Flink任务提交失败问题

    解决Flink写Hbase,获取的Hbase Connect7天超期,报Token has expired问题

    解决Flink不支持对taskmanager.out文件进行log4j管控的问题

    解决Flink[FLINK-20547]由于网络堆栈中的异常,批处理作业失败问题

  • HDFS

    解决频繁修改namenode的log4j文件导致NameNode进程出现线程泄漏问题

    解决HDFS的TimeLineServer相关HDFS目录爆满,无清理机制问题

    将HDFS允许写单副本告警级别修改为重要告警

  • Hive

    解决Hive的MetaSpace内存泄漏问题

    解决Hive[HIVE-19994]drop表的时候会报错的问题

    解决Hive对接atlas加载posthook内存泄漏问题

    解决Hive[HIVE-24936] MR合并不兼容ORC文件导致数据丢失问题

    Hive集成DataAtrs元数据同步插件包

    解决Hive客户端连接HiveServer时建立session获取token时并发锁导致连接排队慢的问题

    解决Hive任务持有metastore连接获但执行select NOTIFCATION_SEQUENCE for update时阻塞变慢,连接释放慢问题

    解决Flink连接Hive的metastore的黑名单机制存在缺陷的问题

    解决重启ZooKeeper或ive服务的ZooKeeper连接异常时,连接HiveServer正常但执行sql异常的问题

    解决[HIVE-24501]lastaccesstime配置参数,导致hive无法插入数据的问题

    解决Hive健康检查在OBS限流时会重启HiveServer的问题

    解决Hive使用tez引擎进行select操作(包含union all)数据正常,外面套一个insert后导致数据丢失问题

  • Hudi

    解决Hudi对接Hive会造成/tmp目录下的临时文件残留的问题

  • Hue

    解决Hue在查询返回数据量大的情况下会导致HUE页面卡死不可用的问题

    解决Hue单击“文档”报错maximum recursion depth exceeded while calling a Python object的问题

    解决Hue修改CHERRYPY_SERVER_THREADS配置不生效问题

    解决Hue中导入json文件,目录名为空时,会导致文件加载不出来的问题

    解决Hue连续导入两次json文档后一直提示加载中的问题

  • Impala

    解决Impala中catalog日志配置的max_log_size单位不正确的问题

  • Kafka

    解决Kafka组件监控的指标显示不全,监控的指标值单位不合适的问题

    解决Kafka在使用kafka.security.auth.SimpleAclAuthorizer时,使用21005端口读写数据性能下降的问题

    修改Kafka存在单副本告警的告警级别为重要

  • Kerberos

    解决Kerberos服务安全检查脚本check-krb-availability.sh偶现认证用户krb_test_user失败的问题

  • HBase

    解决HBase[HBASE-26273][HBASE-26274]性能问题

    解决HBase组件WAL文件不回滚的问题

    解决HBase的HMaster用于处理RegionServer上报region状态请求的handler不够,导致region状态上报失败,出现RIT的问题

    解决HBase构造HMaster异常主备倒换后由于大量regionServer的region上线请求导致HMaster full gc的问题

  • ClickHouse

    解决ClickHouse balancer实例error日志不回滚问题

    解决ClickHouse节点上的副本同步及part合并因后台处理线程被占满且长时间未释放(TTL触发的merge占用内存超过最大内存导致合并失败),导致该两个节点与副本节点的数据落后其副本节点的问题

    解决ClickHouse实例crash问题,将boost更新到1.78版本

    解决ClickHouse修改clickhouse密码后监控丢失问题

    解决ClickHouse配置冷热分离后,对于已经存在OBS的数据,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题

    解决ClickHouse中async_socket_for_remote/use_hedged_requests设置参数存在的问题

    解决ClickHouse使用 OFFSET 的查询可能出现的管道卡住的问题

    解决ClickHouse对于日期/时间类型,强制WITH FILL 类型与ORDER BY列类型相等的问题

    解决ClickHouse连接失败,clickhouse-benchmark挂起的问题

    解决ClickHouse从配置中删除副本时,分布式异步插入中可能发生崩溃的问题

    解决ClickHouse对冲连接上的客户端崩溃的问题

    在TemporaryFileStream中完成CompressedWriteBuffer

    解决ClickHouse修改没有类型的列时发生的错误问题

    解决ClickHouse具有Nullable类型的类型化dictGet

    解决ClickHouse使用Decimal参数修复avgWeighted中除以零的问题

    解决ClickHouse列索引越界,避免列索引为空的问题

    解决ClickHouse任何模型的分组依据的低基数问题

    解决ClickHouse将 join_algorithm设置为“auto”并且使用字典执行Join时发生的崩溃问题

    解决ClickHouse OOM异常情况下zk请求可能挂起的问题

    解决ClickHouse grpc端口冲突时崩溃的问题

    解决ClickHouse将错误的聚合状态传递给groupBitmap*时发生崩溃问题

    解决ClickHouse在ZooKeeper客户端中的中止问题

    解决ClickHouse在Kafka处理某些格式的NULL消息期间避免nullptr取消引用的问题

    解决ClickHouse tuple()导致样本崩溃的问题

    解决ClickHouse令牌提取器中的缓冲区溢出的问题

    解决ClickHouse与ZooKeeper的连接超时hang住问题

    解决ClickHouse与Zookeeper服务连接断开,导致认证超时问题

    解决ClickHouse滚动升级过程中,连接ZooKeeper失败,导致clickhouse写入失败 业务中断的问题

    解决ClickHouse配置ROW POLICY后,使用select语句查询数据发生crash的问题

    ClickHouse支持postgres连接池

    解决ClickHouse重命名列/删除列的DDL操作,客户端会卡死问题

    解决ClickHouse异常场景下,手动执行数据均衡脚本执行失败问题

    解决ClickHouse在冷热分离集群中,对表执行修改LLT操作失败问题

    解决ClickHouse内存持续增长,3天左右内存会耗尽触发Memory Limit错误的问题

    解决ClickHouse在manager上建立角色然后绑定用户,授权角色具有某个表读写权限后,实际上无法对此表进行读写操作,报错无权限的问题

    优化ClickHouse与ZooKeeper连接异常时ZooKeeper客户端未能及时关闭并重连问题

    优化ClickHouse BackgroundJobsExecutor逻辑

  • Yarn:

    解决大量NodeManager下电后,Yarn任务大量pending的问题

    解决HiveSQL任务长时间卡主在Yarn上面无法往下运行的问题

  • Spark:

    解决SparkJD BCS erver在OOM后不退出,导致后续任务提交失败问题

    解决Spark Streaming作业长时运行后出现shuffle找不到报错问题

    解决SparkJDB CS erver在Yarn资源不足时会耗尽工作线程的问题

    解决Spark使用Spark-sql执行select ${aaa} as aaa命令报错问题

    解决Spark读取Hive表入dws时报dws表没有update权限问题

    解决Spark使用spark-sql使用jar包放于OBS的UDF失败问题

  • Ranger:

    解决Rangeradmin日志目录下access_log日志不清理的问题

    解决Ranger日志归档文件没有压缩,没有清理,导致严重告警,磁盘容量不足的问题

    解决非Kerberos集群Hive对接Ldap后,Ranger开源界面无法联想Hive表的问题

  • Presto:

    解决Presto中EventListener类加载器无法加载plugin类的问题

  • Oozie:

    解决Oozie历史job不清理的问题

    解决提交SSH类型的Oozie作业依赖的文件在tmp目录下,系统会定期删除,删除后报错的问题

  • OBS-Provider:

    解决获取ECS临时ak/sk失败的问题

安装完成后必须的手动操作

请参考安装完成后必须的手动操作

补丁兼容关系

MRS 3.1.0.0.8补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。

安装补丁的影响

请参考安装补丁的影响

support.huaweicloud.com/usermanual-mrs/mrs_01_24872.html