华为云用户手册

  • 查看 MRS 集群补丁信息 查看集群组件的补丁信息。如果集群组件,如Hadoop或Spark等出现了异常,可下载补丁版本,修复问题。 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,可查看当前MRS集群补丁信息。 MRS 版本集群,补丁版本信息如下: 补丁名称:补丁包的名称。 发布时间:补丁包发布的时间。 状态:展示补丁的状态。 补丁内容:补丁版本的描述信息。 操作:可安装或者卸载补丁。 父主题: 安装MRS集群补丁
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.7 发布时间 2020-07-15 解决的问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.7补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 告警解释 系统每15分钟周期性检测提交到Yarn上的Mapreduce和Spark应用任务(JDBC常驻任务除外),当检测到任务执行时间超过用户指定的超时时间时,产生该告警,但任务仍继续正常执行。其中,Mapreduce的客户端超时参数为“mapreduce.application.timeout.alarm”,Spark的客户端超时参数为“spark.application.timeout.alarm”(单位:毫秒)。 当该任务结束或者任务被终止后,该告警会自动清除。
  • 通过管理控制台查看组件监控 登录MRS控制台。 选择“现有集群”,单击集群名称进入集群详情页面。 在“概览”页签单击“ IAM 用户同步”右侧的“单击同步”进行IAM用户同步。 在MRS集群详情页面,单击“组件管理”。 查看组件监控。 单击列表中指定服务名称,查看服务状态及指标信息。 定制、查看组件级别监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 查看角色实例监控。 在组件列表中单击服务指定名称。 单击“实例”,查看组件内的各角色实例状态。 支持在列表右上角筛选相同角色的全部实例。单击“高级搜索”,在角色搜索区域中设置搜索条件,单击“搜索”,查看指定的角色信息。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。 单击列表中指定角色实例名称,查看角色实例状态及指标信息。 定制、查看监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。
  • 为已有MRS集群创建RDS数据连接 该步骤指导用户为当前已有的MRS集群创建RDS数据连接。 登录MRS控制台,在导航栏选择“数据连接”。 单击“新建数据连接 ”。 参考表1配置相关参数。 表1 数据连接 参数 说明 类型 选择外部源连接的类型。 RDS服务PostgreSQL数据库:安装了Hive组件的集群支持连接该类型数据库。 RDS服务MySQL数据库:安装了Hive或Ranger组件的集群支持连接该类型数据库。 名称 数据连接的名称。 数据库实例 RDS服务数据库实例,该实例需要先在RDS服务创建后在此处引用,且已创建数据库,具体请参考创建并配置RDS实例。单击“查看数据库实例”查看已创建的实例。 数据库 待连接的数据库的名称。 用户名 登录待连接的数据库的用户名。 密码 登录待连接的数据库的密码。 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,请参考创建并配置RDS实例操作。 单击“确定”完成创建。
  • 登录弹性云服务器(SSH密码方式) 本地使用Windows操作系统 如果本地主机为Windows操作系统,可以按照下面方式登录弹性云服务器。下面步骤以PuTTY为例。 登录 MapReduce服务 管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 选择“弹性公网IP”页签,单击“绑定弹性IP”为弹性云服务器绑定一个弹性公网IP并记录该IP地址,若已绑定弹性公网IP请跳过该步骤。 运行PuTTY。 单击“Session”。 Host Name (or IP address):输入弹性云服务器所绑定的弹性公网IP。 Port:输入 22。 Connection Type:选择 SSH。 Saved Sessions:任务名称,在下一次使用PuTTY时就可以单击保存的任务名称,即可打开远程连接。 图3 单击Session 单击“Window”,在“Translation”下的“Remote character set:”选择“UTF-8”。 单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 建立到云服务器的SSH连接后,根据提示输入用户名和密码登录弹性云服务器。 用户名、密码分别是root和创建集群时设置的密码。 本地使用Linux操作系统 如果本地主机为Linux操作系统,您可以参考1~4为弹性云服务器绑定弹性公网IP后,在计算机的命令行中运行如下命令登录弹性云服务器:ssh 弹性云服务器绑定的弹性公网IP
  • 登录弹性云服务器(VNC方式) 登录MapReduce服务管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 单击右上角的“远程登录”。 根据界面提示,输入Master节点的用户名和密码。 创建集群时登录方式选择了“密码”,如图1。此时,你需要输入的用户名、密码分别是root和创建集群时设置的密码。 图1 密码方式 创建集群时登录方式选择了密钥对,则使用如下方式登录: 创建集群成功后,参见为弹性云服务器申请和绑定弹性公网IP为集群的Master节点绑定一个弹性IP地址。 使用root用户名和密钥文件,SSH方式远程登录Master节点。 执行passwd root命令,设置root用户密码。 设置成功后,返回界面登录方式,输入root用户名和5.b.iii设置的密码,登录节点。
  • 通过Manager删除租户 MRS 3.x及之后版本: 登录Manager,单击“租户资源”。 在左侧租户列表,选择待删除的租户,单击。 根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户资源的数据。”,否则将自动删除租户对应的存储空间。 如果使用不属于supergroup组的用户执行删除租户操作,并且不保留租户数据,需要使用属于supergroup组的用户登录HDFS客户端,手动清理租户对应的存储空间,以免数据残留。 如果确认删除,在弹出的“删除租户”窗口中输入“DELETE ”,单击“确定”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。同时Yarn角色管理中,此租户任务队列不再显示。 MRS 2.x及之前版本: 在MRS Manager,单击“租户管理”。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示删除租户对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“是”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 通过管理控制台删除租户 在集群详情页,单击“租户管理”。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示删除租户对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“是”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 检查待删除的租户是否存在子租户,如果存在,需要先删除全部子租户,否则无法删除当前租户。 待删除租户的角色,不能与任何一个用户或者用户组存在关联关系。
  • 告警解释 系统每30秒周期性检测omm进程使用情况,执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令,获取当前omm用户并发的所有进程数,在omm用户下,执行ulimit -u,获取omm用户可以同时打开的进程最大数。 结果相除,获取到对应的omm用户进程使用率。进程使用率默认提供一个阈值范围。当检测到进程使用率超出阈值范围时产生该告警。 平滑次数为3,进程使用率小于或等于阈值时,告警恢复;如果当前平滑次数大于1,进程使用率小于或等于阈值的90%时,告警恢复。
  • 日志维护建议 利用日志记录来帮助发现非法操作、非法登录用户等异常情况。系统对于重要业务的操作需要记录日志。通过日志文件来定位异常。 定期检查日志 定期查看系统日志,若发现有非法操作、非法登录用户等异常情况,应根据异常情况进行相应的处理。 定期备份日志 Manager和集群提供的审计日志记录了用户活动信息和操作信息,可通过Manager导出审计日志。当系统中的审计日志过多时,可通过配置转储参数,将审计日志转储到指定服务器,避免引起集群节点磁盘空间不足。 维护责任人 网络监控工程师、系统维护工程师。
  • Manager例行维护 为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对下表所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。 表1 项目一览表 例行维护周期 任务场景 例行维护内容 每天 检查集群服务状态 检查每个服务的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的主备状态是否可以正常显示。 检查服务与角色实例的“概览”显示结果是否正常。 检查集群主机状态 检查每个主机当前的运行状态是否正常,是否为绿色。 检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。 检查集群告警信息 检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。 检查集群审计信息 检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。 检查集群备份情况 检查前一天 OMS 、LDAP、DBService和NameNode数据是否自动备份。 检查健康检查结果 在Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。 检查网络通讯 检查集群网络工作状态,节点之间的网络通讯是否存在延时。 检查存储状态 检查集群总体数据存储量是否出现了突然的增长: 磁盘使用量是否已接近阈值,排查原因,例如是否有业务留下的垃圾数据或冷数据需要清理。 业务是否有增长需求,磁盘分区是否需要扩容。 检查日志情况 检查是否有失败、失去响应的MapReduce、Spark任务,查看HDFS中“/tmp/logs/${username}/logs/${application id}”日志文件并排除问题。 检查Yarn的任务日志,查看失败、失去响应的任务日志,并删除重复数据。 检查Storm的worker日志。 备份日志到存储服务器。 每周 用户管理 检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。 分析告警 导出指定周期内产生的告警并分析。 扫描磁盘 对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 统计存储 分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 记录变更 安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。 每月 分析日志 收集集群节点服务器的硬件日志,例如BMC系统日志,并进行分析。 收集集群节点服务器的操作系统日志,并进行分析。 收集集群日志,并进行分析。 诊断网络 对集群的网络健康状态进行分析。 管理硬件 检查设备运行的机房环境,安排清洁设备。
  • MRS 3.1.5.0.1补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.1.5.0.1 发布时间 2023-05-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz,补丁下载地址请参考补丁下载地址。 大数据组件 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.1补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.5.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.5.0.2 发布时间 2023-08-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持安装root权限的补丁。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.2补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz
  • 安装补丁的影响 MRS 3.1.5版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换。 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力。 MRS 3.1.5.0.1及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 支持EVS磁盘分区容量扩容。 MRS 3.1.5.0.3 及之后的补丁版本中diskmgt服务会检测EVS磁盘(受diskmgt服务监控的磁盘)容量是否增加,如果有增加将则会进行该磁盘下分区(单个分区独占磁盘容量)容量和文件系统的扩容,达到自动扩充磁盘分区存储容量的能力。
  • 安装完成后必须的手动操作 MRS 3.1.5.0.1版本的补丁安装/卸载完成后需要在 FusionInsight Manager Web界面上,重启Yarn、HDFS和MapReduce服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.2版本的补丁安装/卸载完成后不需要重启大数据组件。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.5.0.1打补丁升级到MRS 3.1.5.0.2,需要重启MRS 3.1.0.0.2补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 MRS 3.1.5.0.3版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启ClickHouse、HDFS、Kafka、Kudu、MapReduce、Yarn和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.3版本的补丁安装完成后,如需对接 CES ,请联系运维处理。
  • MRS 3.1.5.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.5.0.3 发布时间 2023-11-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 安装MRS 3.1.5.0.3补丁前,需要先安装MRS 3.1.5.0.2补丁,以支持root权限的补丁能力。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 支持EVS磁盘分区容量扩容。 支持D系列磁盘热插拔。 支持运维巡检特性。 支持监控指标上报CES。 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.3补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.3 发布时间 2020-04-29 解决的问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.3补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 安装补丁的影响 安装MRS 2.1.0.3补丁期间会重启MRS Manager,滚动重启Hive、Spark、HDFS、Yarn、Mapreduce、Presto、HBase以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 2.1.0.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 安装完成后必须的手动操作 支持HDFS单副本检测能力 MRS 3.1.0.0.2补丁以及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 MRS 3.1.0.0.1版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上同步集群配置,重启ClickHouse、Flink、Hadoop、HDFS、Hue、Kudu、meta、Presto、Spark2x、Yarn、DBService、Flume、HBase、Hive、Impala、MapReduce、Oozie、Ranger和Sqoop服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.8版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启ClickHouse、Flink、Hadoop、HDFS、Hue、Kafka、MapReduce、Oozie、Ranger、Sqoop、Yarn、DBService、Flume、HBase、Hive、Impala、Kudu、meta、Presto、Spark2x、Tez和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.9版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启Hadoop、HDFS、MapReduce、Yarn和Hive服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.10版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn和Spark2x服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.11版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn、Spark2x、Hive、ClickHouse和Hue服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.12版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HBase和ClickHouse服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.0.0.15版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上重启HDFS、MapReduce、Yarn、Impala、Kudu、Spark和Hive服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.0.0.7打补丁升级到MRS 3.1.0.0.8,需要重启MRS 3.1.0.0.8补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 MRS 3.1.0版本如果安装了Spark服务,需要在补丁安装完成后在主oms节点执行HDFS上zip包的升级操作: 使用root用户,登录集群主节点,执行如下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如:cd /opt/Bigdata/patches/MRS_3.1.0.0.1/client/ source /opt/Bigdata/client/bigdata_env 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行升级hdfs上的包: sh update_hdfs_file.sh (可选)回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 升级/回退完成后需要在FusionInsight Manager Web界面上重启Spark的JD BCS erver2x实例。 如果有使用人为安装的客户端(集群内、外新下载客户端),需要执行客户端升级或者回退的操作: 登录集群主节点: cd /opt/Bigdata/patches/{MRS补丁版本号}/download/ 将补丁安装包复制到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 如:scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 执行命令创建补丁目录并解压补丁包: mkdir /opt/{MRS补丁版本号} tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号} 补丁升级/回退。 执行客户端补丁升级: 登录客户端所在节点 cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh upgrade {客户端安装目录} 如:sh upgrade_client.sh upgrade /opt/client/ 执行客户端补丁回滚(卸载完补丁后执行): 登录客户端所在节点 cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh rollback {客户端安装目录} 如:sh upgrade_client.sh rollback /opt/client/
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3.1.0_patch_20221111.tar.gz 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz
  • MRS 3.1.0.0.2补丁基本信息 表10 补丁基本信息 补丁号 MRS 3.1.0.0.2 发布时间 2023-04-10 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持Manager运维通道 支持Knox连接数告警 支持补丁xml配置文件合并 支持MRS管理面的作业返回日志路径 支持对慢盘自动隔离能力 大数据组件 支持ClickHouse滚动重启设置超时时间,并在重启失败时主动退出运维模式 支持ClickHouse屏蔽连接异常断开场景下,打印带堆栈exception Error日志 增加ClickHouse磁盘检查开关 支持HDFS单副本检测能力 解决的问题 MRS 3.1.0.0.2 修复问题列表: MRS Manager 解决安装用户名支持带“.”补丁后,出现创建异常用户的问题 解决executor每两小时有一批launcher-job任务提交失败问题 解决扩容的节点ssh key不清理问题 大数据组件 解决Hive表存在多个TIMESTAP字段,在插入时存在某个字段不是时间格式会导致原来能够是时间格式的数据显示错位问题 解决Hive表int列分区,值为01场景,无法删除分区问题 解决FlinkServer页面单击任务详情,业务不能正常跳转问题 解决StreamingFlinkSink写OBS从checkpoint恢复会抛异常导致作业失败 解决FlinkServer页面上传jar包,大小限制为10MB问题,调整到200MB 解决ClickHouse修改密码后监控数据不显示问题 解决ClickHouse支持MySQL引擎表无法连接MySQL时进程启动问题 解决ClickHouse crash问题 解决ClickHouse冷热分离,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.2补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.0.0.5补丁基本信息 表9 补丁基本信息 补丁号 MRS 3.1.0.0.5 发布时间 2023-04-30 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz,补丁下载地址请参考补丁下载地址。 MRS支持作业返回日志路径 MRS作业查询接口,支持返回多个application_id 大数据组件 支持HDFS单副本检测能力 解决的问题 MRS 3.1.0.0.5 修复问题列表: MRS Manager 解决当故障实例所在的节点数大于等于要缩容节点数时,缩容失败问题 解决当所有task节点都异常时,缩容失败问题 解决executor执行查询大数据量的hive表作业时,hivesql作业状态刷新与yarn作业执行结果不一致问题 大数据组件 解决ClickHouse执行的SQL中包含groupBitmap语句,内存持续上升,超过clickhouse配置参数限制的内存值的问题 安装完成后必须的手动操作 同步集群配置 重启 补丁兼容关系 MRS 3.1.0.0.5补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 MRS 3.1.0版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.1.0版本的补丁安装完成后,如需对接CES,请联系运维处理。 MRS 3.1.0版本打了补丁后,重新下载安装的客户端也需要执行客户端升级步骤。 MRS 3.1.0.8以及之后的补丁Spark新增特性Parquet/Orc分区表场景下,执行insert相关命令时,提供一个可选配置spark.sql.hive.convertInsertingPartitionedTable,控制Spark DataSource/Hive逻辑,默认值为false即使用Hive逻辑。如需使用Spark DataSource逻辑,将此配置改为true。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换; 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。
  • MRS 3.1.0.0.1补丁基本信息 表11 补丁基本信息 补丁号 MRS 3.1.0.0.1 发布时间 2023-02-02 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址请参考补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 优化磁盘不可写故障告警上报逻辑 租户面支持直接对接CES 大数据组件 ClickHouse提高轻量级突变的优先级 ClickHouse允许空HTTP标头 优化ClickHouse客户端命令 ClickHouse SummingMergeTree引擎支持简单聚合函数数据类型 ClickHouse支持用户名密码同步到metrika.xml中每个replica配置中 ClickHouse开放users.xml自定义配置到页面 支持修改Ranger Usersync对接的外部用户的相关配置项 MapReduce开放Task重试节点黑名单配置阈值,默认值修改为34保证单节点故障作业重试可靠性 Yarn适配小规模集群下AM黑名单失效导致作业重试失败,默认值修改为0.34保证单节点故障作业重试可靠性 Yarn实现Container在磁盘级别的可靠性 hue界面使用hivesql特性 解决的问题 MRS 3.1.0.0.1 修复问题列表: MRS Manager 解决由于某个节点nodeagent故障导致偶现缩容失败问题 解决主master节点主网卡down30分钟,集群未发生主备倒换,集群状态异常问题 解决磁盘不可读磁盘故障告警无法上报问题 解决主节点正常备份,备节点master2备份文件不老化问题 大数据组件 解决Hive不兼容开源Sqoop 1.4.7问题 解决Hive beeline -p输入密码无效问题 解决[HiveSQL] Support manual skipping partial aggregate问题 解决Hive并发插入不同分区,存在分区数据丢失问题 解决Hive in语句被转换为or语句,造成性能损耗问题 解决Hive会话心跳检测判断问题 解决Hive高并发场景下会话积累问题 解决oozie运行workeflow报错问题 解决flink通过jdbc连接到clickhouse的9000端口超时问题 解决ClickHouse读取分布式表超时,没反应;数据迁移任务超时卡住,迁移失败;远程查询超时卡住问题 解决使用clickhouse benchmark 命令连接lb执行查询,并发数超过1个时,偶现coredump问题 解决ClickHouse HTTP请求为HTTP_BAD_REQUEST时出现crash问题 解决ClickHouse HTTP块大小限制问题 解决ClickHouse普通模式集群用户名密码修改、数据迁移问题 解决ClickHouse安全集群场景下滚动重启失败问题 解决ClickHouse扩容后manager上原有的用户和角色未同步至新节点的问题 解决ClickHouse 普通集群执行remote语句失败问题 解决ClickHouse实例扩容后,扩容节点分布式表的本地表未创建成功问题 解决ClickHouse修复偶现的证书同步失败导致组件启动失败问题 解决ClickHouse toWeek函数单调性问题 解决ClickHouse WITH FILL 和WITH TOTALS 计算问题 解决ClickHouse 表列名数字开头时,表join查询时无法成功的问题 解决ClickHouse replaceRegexpAll的问题 解决安全集群clickhouse二进制的LD_LIBRARY_PATH环境变量偶现失效问题 解决在节点上看不到kudu的pid信息问题 解决开启cas认证后,kudu服务不可用问题 解决Kudu健康检查无法检测到故障问题 解决impala manager页面上的配置未生效问题 解决集群扩容task节点,managr中的主机列表中的host无impala实例信息问题 解决HUE页面无法访问问题 解决hue导出excel导致临时目录残留文件问题 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.1补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.0.0.7补丁基本信息 表7 补丁基本信息 补丁号 MRS 3.1.0.0.7 发布时间 2023-07-03 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 优化对慢盘自动隔离能力 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz,补丁下载地址: https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 解决的问题 Spark黑名单增强和DiskBlockManager恢复机制优化 Spark支持删除分区 Spark视图权限优化 HBase慢盘隔离能力优化 解决HMaster用于处理RegionServer上报region状态请求的handler不够,导致region状态上报失败,出现RIT问题 解决HM异常主备倒换后由于大量regionServer的region上线请求导致HMaster full gc问题 解决磁盘热换盘过程中,spark-streaming读kafka写hbase任务失败问题 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.7补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.0.0.8补丁基本信息 表6 补丁基本信息 补丁号 MRS 3.1.0.0.8 发布时间 2023-08-08 补丁约束 如果集群有安装Kudu组件,不能打此补丁; 如果之前集群打过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_OBSA_Patch_20230428.tar.gz或者MRS_3.1.0_HBase-qingting_20220424.tar.gz紧急补丁,不能打此补丁。 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 新特性和优化 支持运维巡检特性 解决的问题 解决的问题 Manager: 解决扩缩容过程中会更新部分实例的log4j.properties文件,每次更新都会导致对应实例进程中出现新的线程,造成线程泄漏问题 解决作业管理提交Spark作业写obs时偶现403问题 解决作业管理提交Spark访问HBase作业失败问题 解决作业管理提交作业后,HDFS上mrs/mrsjob/目录下存在大量application子目录未清理的问题 解决升级log4j后,作业管理提交Hive作业异常,jar包冲突的问题 解决审计日志不老化导致磁盘满的问题 解决主机/服务/实例增删等操作更新集群拓扑时,全表查询TBL_HISTORY_TOPO LOG Y导致controller触发OOM的问题 解决屏蔽元数据未配置周期备份到第三方服务器的任务告警不生效的问题 解决开启日志收集,导致tmp目录磁盘空间占满的问题 解决取消隔离后Kafka存储路径配置改变的问题 解决弹性伸缩过程中出现Metaspace内存不足触发agent重启的问题 解决扩缩容时NodeManager退服/入服后修改资源池配置,会导致excludeHosts下发参数错误的问题 解决master节点keystore.xml文件内容丢失导致DBService实例异常问题 解决作业管理提交作业后/mrs/sql-result/spark-script/目录未做清理的问题 Flink 解决使用FlinkServer提交作业时,显示提交失败,但是Yarn上作业是RUNNING的问题 解决FlinkServer使用println打印日志将磁盘打满导致Yarn不可用的问题 解决Flink客户端ssl证书过期导致Flink任务提交失败问题 解决Flink写Hbase,获取的Hbase Connect7天超期,报Token has expired问题 解决Flink不支持对taskmanager.out文件进行log4j管控的问题 解决Flink[FLINK-20547]由于网络堆栈中的异常,批处理作业失败问题 HDFS 解决频繁修改namenode的log4j文件导致NameNode进程出现线程泄漏问题 解决HDFS的TimeLineServer相关HDFS目录爆满,无清理机制问题 将HDFS允许写单副本告警级别修改为重要告警 Hive 解决Hive的MetaSpace内存泄漏问题 解决Hive[HIVE-19994]drop表的时候会报错的问题 解决Hive对接atlas加载posthook内存泄漏问题 解决Hive[HIVE-24936] MR合并不兼容ORC文件导致数据丢失问题 Hive集成DataAtrs元数据同步插件包 解决Hive客户端连接HiveServer时建立session获取token时并发锁导致连接排队慢的问题 解决Hive任务持有metastore连接获但执行select NOTIFCATION_SEQUENCE for update时阻塞变慢,连接释放慢问题 解决Flink连接Hive的metastore的黑名单机制存在缺陷的问题 解决重启ZooKeeper或ive服务的ZooKeeper连接异常时,连接HiveServer正常但执行sql异常的问题 解决[HIVE-24501]lastaccesstime配置参数,导致hive无法插入数据的问题 解决Hive健康检查在OBS限流时会重启HiveServer的问题 解决Hive使用tez引擎进行select操作(包含union all)数据正常,外面套一个insert后导致数据丢失问题 Hudi 解决Hudi对接Hive会造成/tmp目录下的临时文件残留的问题 Hue 解决Hue在查询返回数据量大的情况下会导致HUE页面卡死不可用的问题 解决Hue单击“文档”报错maximum recursion depth exceeded while calling a Python object的问题 解决Hue修改CHERRYPY_SERVER_THREADS配置不生效问题 解决Hue中导入json文件,目录名为空时,会导致文件加载不出来的问题 解决Hue连续导入两次json文档后一直提示加载中的问题 Impala 解决Impala中catalog日志配置的max_log_size单位不正确的问题 Kafka 解决Kafka组件监控的指标显示不全,监控的指标值单位不合适的问题 解决Kafka在使用kafka.security.auth.SimpleAclAuthorizer时,使用21005端口读写数据性能下降的问题 修改Kafka存在单副本告警的告警级别为重要 Kerberos 解决Kerberos服务安全检查脚本check-krb-availability.sh偶现认证用户krb_test_user失败的问题 HBase 解决HBase[HBASE-26273][HBASE-26274]性能问题 解决HBase组件WAL文件不回滚的问题 解决HBase的HMaster用于处理RegionServer上报region状态请求的handler不够,导致region状态上报失败,出现RIT的问题 解决HBase构造HMaster异常主备倒换后由于大量regionServer的region上线请求导致HMaster full gc的问题 ClickHouse 解决ClickHouse balancer实例error日志不回滚问题 解决ClickHouse节点上的副本同步及part合并因后台处理线程被占满且长时间未释放(TTL触发的merge占用内存超过最大内存导致合并失败),导致该两个节点与副本节点的数据落后其副本节点的问题 解决ClickHouse实例crash问题,将boost更新到1.78版本 解决ClickHouse修改clickhouse密码后监控丢失问题 解决ClickHouse配置冷热分离后,对于已经存在OBS的数据,dettach/attach一个副本的数据,另一个副本会从attach节点copy数据,导致当前节点的数据存在OBS,而副本节点的数据存在本地的问题 解决ClickHouse中async_socket_for_remote/use_hedged_requests设置参数存在的问题 解决ClickHouse使用 OFFSET 的查询可能出现的管道卡住的问题 解决ClickHouse对于日期/时间类型,强制WITH FILL 类型与ORDER BY列类型相等的问题 解决ClickHouse连接失败,clickhouse-benchmark挂起的问题 解决ClickHouse从配置中删除副本时,分布式异步插入中可能发生崩溃的问题 解决ClickHouse对冲连接上的客户端崩溃的问题 在TemporaryFileStream中完成CompressedWriteBuffer 解决ClickHouse修改没有类型的列时发生的错误问题 解决ClickHouse具有Nullable类型的类型化dictGet 解决ClickHouse使用Decimal参数修复avgWeighted中除以零的问题 解决ClickHouse列索引越界,避免列索引为空的问题 解决ClickHouse任何模型的分组依据的低基数问题 解决ClickHouse将 join_algorithm设置为“auto”并且使用字典执行Join时发生的崩溃问题 解决ClickHouse OOM异常情况下zk请求可能挂起的问题 解决ClickHouse grpc端口冲突时崩溃的问题 解决ClickHouse将错误的聚合状态传递给groupBitmap*时发生崩溃问题 解决ClickHouse在ZooKeeper客户端中的中止问题 解决ClickHouse在Kafka处理某些格式的NULL消息期间避免nullptr取消引用的问题 解决ClickHouse tuple()导致样本崩溃的问题 解决ClickHouse令牌提取器中的缓冲区溢出的问题 解决ClickHouse与ZooKeeper的连接超时hang住问题 解决ClickHouse与Zookeeper服务连接断开,导致认证超时问题 解决ClickHouse滚动升级过程中,连接ZooKeeper失败,导致clickhouse写入失败 业务中断的问题 解决ClickHouse配置ROW POLICY后,使用select语句查询数据发生crash的问题 ClickHouse支持postgres连接池 解决ClickHouse重命名列/删除列的DDL操作,客户端会卡死问题 解决ClickHouse异常场景下,手动执行数据均衡脚本执行失败问题 解决ClickHouse在冷热分离集群中,对表执行修改LLT操作失败问题 解决ClickHouse内存持续增长,3天左右内存会耗尽触发Memory Limit错误的问题 解决ClickHouse在manager上建立角色然后绑定用户,授权角色具有某个表读写权限后,实际上无法对此表进行读写操作,报错无权限的问题 优化ClickHouse与ZooKeeper连接异常时ZooKeeper客户端未能及时关闭并重连问题 优化ClickHouse BackgroundJobsExecutor逻辑 Yarn: 解决大量NodeManager下电后,Yarn任务大量pending的问题 解决HiveSQL任务长时间卡主在Yarn上面无法往下运行的问题 Spark: 解决SparkJDB CS erver在OOM后不退出,导致后续任务提交失败问题 解决Spark Streaming作业长时运行后出现shuffle找不到报错问题 解决SparkJDBCServer在Yarn资源不足时会耗尽工作线程的问题 解决Spark使用Spark-sql执行select ${aaa} as aaa命令报错问题 解决Spark读取Hive表入dws时报dws表没有update权限问题 解决Spark使用spark-sql使用jar包放于OBS的UDF失败问题 Ranger: 解决Rangeradmin日志目录下access_log日志不清理的问题 解决Ranger日志归档文件没有压缩,没有清理,导致严重告警,磁盘容量不足的问题 解决非Kerberos集群Hive对接Ldap后,Ranger开源界面无法联想Hive表的问题 Presto: 解决Presto中EventListener类加载器无法加载plugin类的问题 Oozie: 解决Oozie历史job不清理的问题 解决提交SSH类型的Oozie作业依赖的文件在tmp目录下,系统会定期删除,删除后报错的问题 OBS-Provider: 解决获取ECS临时ak/sk失败的问题 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.8补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.0.0.6补丁基本信息 表8 补丁基本信息 补丁号 MRS 3.1.0.0.6 发布时间 2023-06-15 安装前处理 安装此补丁前,需要先安装支持补丁特性的定制补丁MRS_3.1.0_patch_20221111.tar.gz,补丁下载地址:补丁下载地址。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz,补丁下载地址: https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3x_Patch_Diskmgt_v2.1_20230322.tar.gz 优化HDFS慢盘隔离动作,从reconfig改成重启DataNode。 解决的问题 安装MRS 3.1.0.0.6补丁后,慢盘恢复后yarn没有将隔离磁盘从黑名单剔除,导致后续任务提交不到新磁盘上。 当慢盘隔离失败后,恢复故障后,手动下发隔离,此时告警恢复,组件状态为已隔离,上报恢复事件,实际上组件未恢复。 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.0.0.6补丁包中已包含所有MRS 3.1.0版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
共100000条