云服务器内容精选

  • 补丁基本信息说明 表1 补丁基本信息 补丁号 MRS _3.3.0-LTS.1.1 发布时间 2024-12-20 解决的问题 解决Manager问题: 修改Chrony的 域名 会导致Nodeagent无法启动。 集群扩容时,在同步组件配置时HDFS组件配置同步失败,导致启动HDFS服务失败。 Chrony时钟偏移精度低导致上报持续上报“NTP服务异常”与“NTP服务不可用”告警。 优化节点间互信失效告警,自动恢复功能。 重启Agent进程,如果这个Agent节点安装有服务健康检查配置的关键实例,将会误报服务不可用告警。 运维通道功能校验签名失败后任务阻塞。 节点内存打满,MRS集群磁盘出现踢盘,盘分区丢失。 租户资源修改用户策略功能无法使用。 空间聚合指标聚合时使用了实时数据聚合,导致聚合的数据不准确。 节点隔离后频繁告警节点故障告警。 Manager存在节点间网络异常误告警及告警无法自动消除情况。 Gaussdb健康检查异常,导致实例重启。 IAM 同步的用户加入supergroup用户组后,无法删除。 高并发认证过程web进程内存增加较多。 Ldap在部分数据主备不一致未能及时触发告警。 Meta缺少进程可用性健康检查。 Manager主备节点同步数据异常,pms目录下存在脏数据。 解决Flink问题: 普通集群Flink jar作业提交失败。 创建只有两个英文字母的用户后,无法登录Flink WebUI页面。 FlinkServer重启策略的失败重试间隔时间单位与实际不符。 修改Flink登录用户的密码后,提交作业失败。 作业从Checkpoint恢复后一直处于提交中。 Flinkserver作业提交后一直显示提交成功。 Flink作业写Hudi后,Spark查询报错。 Flink日志中打印Hudi数据。 两个以上join的场景中hash行为发生改变。 Hudi cow表lookup join作业启动时报错。 普通集群Flink写Hudi同步hive hms模式下失败。 Flink作业通过CheckPoint恢复失败。 解决JobGateWay问题: Jobgateway的flink作业launcherJob日志无详细信息。 不起realJob的FlinkSql类型作业偶现状态刷新失败。 历史作业信息的老化未根据任务结束时间进行老化。 用户添加成功后首次作业管理提交作业时显示MRS Manager中用户不存在。 全链路在DLF上的Spark/DWS作业For Each算子监控数据展示缺失。 MRS实时任务告警通知需显示具体作业名称。 Flink Jar作业实际失败了后作业状态却刷新为成功。 提交FlinkSQL作业,在Yarn上未启动真实作业。 DGC提交FlinkSSQL作业包含多个insert,每个insert会分别提交1个Flink作业。 LauncherJob重试后导致任务状态异常。 Sparkscript作业偶现作业状态与Yarn上作业状态不一致。 管理面提交MR引擎作业当任务有多个map时管理面任务结束统计时间不正确。 SQL中查询表格大于10张时,查询结果排序与实际的排序不符。 JobGateway提交的SparkSql/SparkScript同名列作业展示的结果不正确。 JobBalance连接数监控为空。 管控面提交Spark作业Jar包所在的桶与业务桶使用同一个时,长时间运行后访问obs 403。 解决ClickHouse问题: ClickHouse偶现libunwind内存越界,导致进程重启。 ClickHouse的迁移工具内部有数据迁移时长限制,数据量较大时迁移失败。 Nodeagent进程连接ZooKeeper,异常链接不释放。 数据库进入只读导致任务失败。 内存连续增长,导致进程无内存可用。 健康检查阻塞导致资源打满。 单节点下电重启后,ClickHouse实例故障。 表数量多的情况下,角色界面加载慢。 副本不一致告警频繁上报,影响用户体验。 使用scp方式替换sftp功能。 慢查询告警检测语句执行耗时过长。 Mysql引擎偶现卡住。 安全认证存在缓慢内存泄露。 数据盘误隔离,导致数据异常。 资源关闭异常导致僵尸进程。 system.build_options包含用户提交信息。 集群实例间的CPU负载不均衡。 解决Flume问题: 使用TaildirSource读取文件在节点inode重复场景下会造成少读文件或者读取文件不全。 Flume使用httpsource时,由于jetty-http-9.4.46.v20220331.jar包冲突导致报错。 解决Kafka问题: 故障场景下,KafkaUI没有释放ZooKeeper链接。 解决Ranger问题: Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。 各组件日志默认保留数量和大小太少,无法支撑问题定位。 SparkSQL任务进行Ranger鉴权,偶发鉴权失败。 解决HBase问题: HBase在大量写入的场景下,回收站会被打满不能及清理导致磁盘空间不被释放。 [HBASE-27580] 健康检查进程因为热点自愈OOM,集群RegionServer节点反复重启。 各组件日志默认保留数量和大小太少,无法支撑问题定位。 compaction队列积压问题严重。 RegionServer不断重启,数据写入失败,任务失败。 HBase冷热表执行major compaction异常。 使用FSHLogProvider时,开启HAR特性在WAL滚动时将可能抛出FileNotFoundException。 HBase连接Zookeeper大量进程未释放,导致节点内存爆满。 HBase计划性迁移后存量复制导致全量数据重复迁移。 Cache key had block type null日志打印过多,可能影响性能。 ALM-19012告警HBase系统表目录或文件丢失告警误报。 健康检查脚本执行异常导致上报HBase服务不可用误告警。 解决Yarn问题: RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。 提交HiveSQL任务长时间卡主无法往下运行。 Yarn资源抢占功能偶现不生效。 “/tmp/hadoop-yarn/staging/”目录下文件未清理。 Yarn队列资源充足,任务提交无法取到资源。 kill有预留资源的任务后,Yarn上预留资源累加不释放。 任务长时间运行后日志丢失。 解决HDFS问题: 双AZ集群NameNode主备倒换后出现大量待复制副本。 访问kerberos超时导致,上报异常告警。 容灾时候报错 CopyListing$DuplicateFileException。 HDFS主备容灾偶现失败。 HBase空指针异常导致regionserver abort问题。 解决MapReduce问题: 循环依赖校验有误。 解决Hive问题: 开启Ranger鉴权后查询大宽表耗时较长。 Ranger不支持禁用OBS鉴权策略。 influxdb生成的parquet文件timestamp类型为纳秒类型,Hive读取报错。 外置RDS MYSQL场景开启添加列优化执行alter cascade操作分区表由于库中分区量较大导致MYSQL异常。 日志默认保留数量和大小调整。 Tez引擎执行union后使用concatenate合并小文件数据丢失。 重启Zookeeper节点后Hive SQL执行失败。 普通集群,Hive需验证token,导致Flink管理面提交hive catlog作业失败。 MetaStore删除分区偶现死锁。 Tez引擎insert overwrite插入空集不会覆盖原数据。 conv函数第一个参数为空时执行结果异常。 Hive on Spark作业并发较高时会将所在节点内存打爆。 启用Ranger鉴权,本用户创建的UDAF,本用户使用,报无权限。 localtask导致inode满优化。 MetaStore死锁无法自动恢复。 Minus执行报空指针。 表location指定库路径导致删表后库数据丢失。 解决Hudi问题: 实时日切入湖场景(Flink on Hudi)数据入湖后,存在Hudi相同分区下同主键数据重复问题,导致数据不一致。 Alter删除分区在写同名分区数据,执行clean无效。 Hudi以数字开头的hudi表名,表创建成功,在进行删除分区时失败。 FileGroup下只有一个4bytes文件时,Hudi读写报错。 Hudi表删表之后重建会报错。 执行DDL后,Drop partition失败。 Insert Overwrite写MOR表,archive失效。 修改Hudi写Cow表逻辑,先写到temp目录,然后再rename到正式目录。 Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到metastore,导致Hive/HetuEngine读不到新数据。 Spark DataSource第一次写入数据时报NPE。 spark-shell建表失败。 解决HetuEngine问题: date_add开启隐式转换使用between执行失败。 queryInfo日志里面Memory采集不准确。 Hive大写CURRENT_USER函数创建的视图,hetu-cli查询不生效。 date_add('month', -1 vs - interval '1' month)计算不准确。 datediff时间函数计算结果不对。 普通模式集群HetuEngine需要支持对接外部LDAP。 Hive新增metastore实例之后,HetuEngine本地容器未刷新。 HetuEngine的SQL运维界面,基于用户维度的慢sql统计信息不正确。 SQL很长的时候,使用HSFabric连接JDBC执行SQL失败。 DBService服务异常重启恢复期间,如果HetuEngine的计算实例异常停止,在DBService恢复后,计算实例无法自愈。 QAS磁盘使用率无监控数据。 Hive嵌套视图包含cast varchar(n)时,查询视图报错。 解决Spark问题: JD BCS erver在session关闭超时的时候会出现session一直存在的情况。 spark.history.store.hybridStore.diskBackend默认值改为ROCKSDB。 用户Spark任务Driver执行完成后,Executor启动时出现RpcEndpointNotFoundException: Cannot find endpoint。 JDB CS erver driver进程出现log4j死锁。 commons-pool2版本冲突导致Spark访问kafka报错。 Sparkstreaming任务失败,但是Yarn WebUI中显示状态是succeeded。 Spark任务提交报Spark类序列化异常。 spark show tables不支持Ranger鉴权。 JobHistory GC回收慢导致长时间运行的任务场景下频繁出现实例GC告警。 Spark作业Driver经常Full GC报OOM异常。 Spark Jar读取Parquet和MySQL数据后进行Join和Filter操作后,必现栈溢出。 influxdb生成的parquet文件timestamp类型为纳秒,故导致数据读取报错。 CDM 执行Spark SQL使用的JDBC接口,SQL执行失败,但是返回给客户端结果是执行成功。 LYUAN.LYUAN_L2_LOT_PLAN_DETAIL_CA表增加字段后,使用insert into table xxx select xxx from xxx语句插入数据后,分区值插入到了其他字段。 无法获取包含genericUDF执行计划的json格式。 Insert overwrite table a select * from a, metastore故障后,数据丢失。 创建block异常失败场景未清理blockinfo状态导致dag-scheduler-event-loop线程挂死。 鉴权加固:spark.ranger.plugin.viewaccesscontrol.enable默认开启。 alter table drop partition权限管理_user有库的read,write权限时,删除库内表分区时,报错提示需要EXECUTE权限,但是表分区却删除成功。 alter table add partions set location指定为一个已有库的路径时,执行成功,有数据丢失风险。 Spark创建库时指定location路径和已有库路径一致时没有拦截,校验默认关闭。 spark未把.db路径加入黑名单保护列表会存在建表建分等指定location存在数据丢失风险。 spark.sql.relationCache.skip参数行为与描述不符合,为空时候不生效。 DGC对应连接Spark JDBCServer提及的Yarn任务 AM重试次数只有一次,单点故障会影响整个集群。 Driver存储大量JobConf对象,内存不断增加引发的内存泄露。 CSV中存在null时,covertRow会频繁读取SqlConf。 访问集群外HDFS,Spark认证失败。 UserA创建表和视图后,只授权给UserB视图Select权限,UserB可以查询到表数据。 用户任务Orc数据文件迁移到新集群后,出现读取Orc数据时出现数组越界异常。 管控面执行add jar obs路径空指针。 补丁兼容关系 MRS_3.3.0-LTS.1.1补丁包中包含所有MRS 3.3.0-LTS.1版本单点问题修复补丁。 父主题: MRS 3.3.0-LTS.1.1补丁说明