检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark的Shuffle过程需要写本地磁盘,Shuffle是Spark性能的瓶颈,I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘,则在每个磁盘配置一个Spark的localDir,这将有效分散Shuffle文件的存放,提高磁盘I/O的效率。如果只有一个磁盘,配置了多个目录,性能提升效果不明显。
Spark的Shuffle过程需要写本地磁盘,Shuffle是Spark性能的瓶颈,I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘,则在每个磁盘配置一个Spark的localDir,这将有效分散Shuffle文件的存放,提高磁盘I/O的效率。如果只有一个磁盘,配置了多个目录,性能提升效果不明显。
群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。
群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。
数据丢失。 可能原因 磁盘配置无法满足业务需求,磁盘使用率达到上限。 处理步骤 检查磁盘使用率是否达到上限 在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService”。 在“概览”页面查看“数据目录磁盘空间使用率”图表,检查数据目录磁盘空间使用率是否超过90%。
Spark的Shuffle过程需要写本地磁盘,Shuffle是Spark性能的瓶颈,I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘,则在每个磁盘配置一个Spark的localDir,这将有效分散Shuffle文件的存放,提高磁盘I/O的效率。如果只有一个磁盘,配置了多个目录,性能提升效果不明显。
有两种方式查看Checkpoint文件。 若将checkpoint的快照信息保存到HDFS,则通过执行hdfs dfs -ls hdfs://hacluster/flink-checkpoint/命令查看。 若将checkpoint的快照信息保存到本地文件,则可直接登录到各个节点查看。 查看Stream
Alluxio中的挂载功能 Alluxio通过统一命名空间的特性统一了对存储系统的访问。详情请参考:https://docs.alluxio.io/os/user/2.0/cn/advanced/Namespace-Management.html 这个特性允许用户挂载不同的存储系统到
“目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录,例如“/hbase”或“/user/hbase/backup”。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 “目标NameService
Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页面,重启ClickHouse实例,恢复磁盘状态。 此时磁盘未更换,有IO错误发生时,磁盘状态还会被置为fault或者abnormal。
Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页面,重启ClickHouse实例,恢复磁盘状态。 此时磁盘未更换,有IO错误发生时,磁盘状态还会被置为fault或者abnormal。
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常? 问题 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常。 回答 创建、加载、更新表或进行其他操作时,数据会被写入HDFS。若HDFS目录的磁盘空间配额不足,则操作失败并发生以下异常。
local-dirs”和“yarn.nodemanager.log-dirs”对应的磁盘。 选择“运维 > 告警 > 告警”,在告警列表中查看对应的磁盘是否存在“ALM-12017 磁盘容量不足”告警。 是,执行4。 否,执行5。 参考ALM-12017 磁盘容量不足操作步骤进行处理,故障恢复后,查看本告警是否恢复。
提高系统的可靠性。 节点磁盘LVM配置 MRS支持将多个磁盘配置成LVM(Logic Volume Management),多个磁盘规划成一个逻辑卷组。配置成LVM可以避免各磁盘间使用不均的问题,保持各个磁盘间均匀使用在HDFS和Kafka等能够利用多磁盘能力的组件上尤其重要。并
ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DataNode磁盘空间使用率,并把实际磁盘使用率和阈值相比较。DataNode容量百分比指标默认提供一个阈值范围。当检测到DataNode容量百分比指标超出阈值范围时产生该告警。
问题 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。 因此配置如下:
问题 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。 因此配置如下:
使用HDFS客户端,以hdfs用户执行hdfs lsSnapshottableDir检查当前集群中已创建HDFS快照的目录清单,确保待备份的数据文件所在HDFS路径的父目录或子目录不存在HDFS快照,否则无法创建备份任务。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 HBase的“fs
数据出现不均衡,某磁盘过满而其他磁盘未写满。 HDFS DataNode数据存储目录配置为“/export/data1/dfs--/export/data12/dfs”,看到的现象是大量数据都是存储到了“/export/data1/dfs”,其他盘的数据比较均衡。 原因分析 磁盘为卸载重装
支撑分区演进功能 支持隐式分区功能 支持历史版本回溯功能 Iceberg关键技术和优势 Iceberg支持分支和标签功能,能更加灵活的管理快照生命周期。 Iceberg支持丰富的Spark SQL能力。 父主题: 组件介绍