检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当分级存储策略为LAZY_PERSIST时为什么文件的副本的存储类型为DISK 问题 当文件的存储策略为LAZY_PERSIST时,文件的第一副本的存储类型应为RAM_DISK,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY_PER
多副本场景下,运行在副本丢失损坏的BE节点的查询任务报错 现象描述 如果多个副本直接从磁盘上丢失了副本,比如mv改名,内核不会感知到该副本丢失,执行查询时如果请求运行在副本丢失的BE节点,报错: 处理步骤 登录安装了MySQL的节点,连接Doris数据库。 调用BE的check_
Spark应用开发建议 RDD多次使用时,建议将RDD持久化 RDD在默认情况下的存储级别是StorageLevel.NONE,即既不存磁盘也不放在内存中,如果某个RDD需要多次使用,可以考虑将该RDD持久化,方法如下: 调用spark.RDD中的cache()、persist(
数据。 NameNode 备份HDFS元数据。 表2 根据业务需要备份Manager配置数据(MRS 3.x及之后版本) 备份类型 备份内容 备份目录类型 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LocalDir LocalHDFS RemoteHDFS
秒级计费,按小时结算。 - 适用计费项 MRS服务管理费用、IaaS基础设施资源费用(弹性云服务器,云硬盘)。 MRS服务管理费用、IaaS基础设施资源费用(弹性云服务器,云硬盘)。 计费项 变更计费模式 - 支持变更为包年/包月计费模式。 按需转包年/包月 变更规格 支持变更规
edConverter 回答 原因: Hudi表数据含有Decimal类型数据。 初始入库BULK_INSET方式会使用Spark内部parquet文件的写入类进行写入,Spark对不同精度的Decimal类型处理是不同的。 UPSERT操作时,Hudi使用Avro兼容的parq
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,严重时可能会导致服务不可用。 可能原因 磁盘老化或者磁盘坏道。 处理步骤 检查磁盘状态。 打开MRS集群详情页面,在实时告警列表中,单
SQL等)作业类型无法克隆 克隆的作业只能并行执行,不保证执行顺序 包周期集群不允许克隆集群作业 普通集群支持克隆作业,安全集群不支持克隆作业 集群相关配置是否支持克隆情况参见表1。 表1 MRS集群参数克隆说明 参数 说明 计费模式、版本类型、集群版本、集群类型、组件列表、可用
结果,将各个reduce分区的数据写到各自的磁盘文件中。 这样带来的问题是如果reduce分区的数量比较大的话,将会产生大量的磁盘文件(比如:该问题中将产生1000000 * 100000 = 10^11个shuffle文件)。如果磁盘文件数量特别巨大,对文件读写的性能会带来比较
结果,将各个reduce分区的数据写到各自的磁盘文件中。 这样带来的问题是如果reduce分区的数量比较大的话,将会产生大量的磁盘文件(比如:该问题中将产生1000000 * 100000 = 10^11个shuffle文件)。如果磁盘文件数量特别巨大,对文件读写的性能会带来比较
MRS标签更新会同步到集群中的云服务器(ECS)或云硬盘(EVS)标签上,但是在ECS或EVS控制台上修改MRS集群的标签不会同步到集群上,为了使所有ECS/ECS标签与MRS标签保持一致,不建议在云服务器(ECS)或云硬盘(EVS)控制台上修改MRS集群标签。 系统支持添加多个标
Hudi在upsert时占用了临时文件夹中大量空间。 回答 当UPSERT大量输入数据时,如果数据量达到合并的最大内存时,Hudi将溢出部分输入数据到磁盘。 如果有足够的内存,请增加spark executor的内存和添加“hoodie.memory.merge.fraction”选项,如:
Hudi在upsert时占用了临时文件夹中大量空间。 回答 当UPSERT大量输入数据时,如果数据量达到合并的最大内存时,Hudi将溢出部分输入数据到磁盘。 如果有足够的内存,请增加spark executor的内存和添加“hoodie.memory.merge.fraction”选项,如:
uffle文件是否过大)、监控Hive、HetuEngine、Spark的关键HDFS目录(不支持OBS)是否过大。对于占用存储资源(本地磁盘或者关键HDFS目录)过大的作业上报事件。 本章节内容仅适用于MRS 3.5.0及之后版本。 监控的HDFS目录请参见表1。 表1 监控HDFS目录
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
和命令du -sh /srv/BigData/hadoop/data1/查询得到的/srv/BigData/hadoop/data1/目录磁盘占用量相差较大(大于10 GB)。 原因分析 使用命令lsof |grep deleted可以查询到此目录下有大量log文件处于deleted状态。
r实例所在的各节点磁盘空间是否不足(使用率超过百分之80)。 是,执行9。 否,执行11。 参考ALM-12017 磁盘容量不足(2.x及以前版本)进行处理,对磁盘进行扩容。 在“告警管理”页签,查看该告警是否恢复。 是,处理完毕。 否,执行11。 检查网络状态。 在ZooKee
等待5分钟后,在“告警管理”页签,查看该告警是否恢复。 是,处理完毕。 否,执行4.a。 检查磁盘状态。 在MRS集群详情页面,单击“节点管理”并展开节点组信息。 在“磁盘使用率”列,检查磁盘空间是否不足。 是,执行3.c。 否,执行4.a。 对磁盘进行扩容。 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
算子输入、输出参数设置 输入类型 输出类型 CSV文件输入 HBase输出 HTML输入 HBase输出 固定宽度文件输入 HBase输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULK