检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
云容器实例支持导入已有的SFS 3.0文件存储。 登录云容器实例控制台,单击左侧导航栏的“存储管理 > 文件存储卷”。 如果您在弹性文件存储中创建了SFS 3.0文件存储,可以这里导入后使用,请执行2。 如果您还没创建文件存储,可以直接在这里创建,请执行3。 单击“导入”,进入“导入文件存储”页面,选择需要导入的文件存储,然后单击“导入”。
设置为true,Spark写入目标表时会判断是否写入了小文件,如果发现有小文件,则会启动合并小文件的job。 false spark.sql.mergeSmallFiles.threshold.avgSize 如果某个分区的平均文件大小小于该值,则启动小文件合并。 16MB spark.sql.mergeSmallFiles
使用Spark小文件合并工具说明(MRS 3.3.0之前版本) 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低
输入挂载参数键值对,详情请参见设置极速文件存储挂载参数。 a:创建方式选择“已有存储卷”时可设置。 b:创建方式选择“新建存储卷”时可设置。 单击“创建”,将同时为您创建存储卷声明和存储卷。 您可以在左侧导航栏中选择“存储”,在“存储卷声明”和“存储卷”页签下查看已经创建的存储卷声明和存储卷。 创建工作负载。
对象存储服务-成长地图 | 华为云 对象存储服务 对象存储服务(Object Storage Service,OBS)提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 图说OBS 权限控制图解
配置文件存储批量迁移方案 本节介绍为文件存储批量迁移配置迁移方案的方法。 文件存储批量迁移:适用于源端有多个文件存储地址内的资源需要迁移的场景。如果只有单个文件存储地址内的资源需要迁移,请直接创建单个文件存储迁移工作流。 准备工作 创建迁移项目。 在MgC控制台为本次迁移创建独立的项目,方法请参见项目管理。
应用场景描述 自定义输入该解决方案实践的应用场景,用户可通过该场景描述该解决方案实践的大致内容。 方案架构 非必填。该解决方案实践的方案架构,仅支持JPG、PNG格式,大小不超过10M;支持输入该方案架构的描述。方案架构可输入多组。 方案优势 该解决方案实践的方案优势。 点击【保存】,即
所有存储卷均支持 无 动态创建存储卷(自动创建存储) 即在PVC中指定存储类(StorageClass),由存储Provisioner根据需求创建底层存储介质,实现PV的自动化创建并直接绑定至PVC。 云硬盘存储、对象存储、文件存储、本地持久卷、专属存储 无 动态挂载(VolumeClaimTemplate)
方案概述 应用场景 该解决方案能帮您快速在华为云上部署高可用的云上网站架构,支持业务流量跨可用区进行分发,并具备跨可用区故障容灾的能力。适用于云上搭建电商平台、门户网站、论坛、博客等高可用网站场景。 方案架构 该解决方案支持一键式部署华为云Flexus云服务器X实例、弹性负载均衡ELB、弹性公网IP
方案概述 应用场景 该解决方案依托华为云自身安全能力与安全合规生态,为用户提供一站式的等保三级安全解决方案,适用于在云上部署的关键业务系统:电商平台、政府门户网站、游戏、教育业务等场景。 方案架构 该解决方案支持一键式部署云防火墙CFW、企业主机安全HSS、web应用防火墙 WA
方案简介 华为乾坤推出的安全重保解决方案采用云边一体创新架构,打造一站式云化安全解决方案。如图1所示,重保安全解决方案由部署在公有云上的云服务和部署在客户网络边界的华为天关防护节点构成,能够帮助用户实现常态化安全保障。 图1 产品架构图 表1 主要服务/模块介绍 部署位置 设备/模块名称