检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
根据使用场景不同,文件存储支持以下挂载方式: 通过静态存储卷使用已有文件存储:即静态创建的方式,需要先使用已有的文件存储创建PV,然后通过PVC在工作负载中挂载存储。适用于已有可用的底层存储或底层存储需要包周期的场景。 通过动态存储卷使用文件存储:即动态创建的方式,无需预先创建文件存储,在创建
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
配置Spark小文件自动合并 配置场景 小文件自动合并特性开启后,Spark将数据先写入临时目录,再去检测每个分区的平均文件大小是否小于16MB(默认值)。如果发现平均文件大小小于16MB,则认为分区下有小文件,Spark会启动一个Job合并这些小文件,并将合并后的大文件写入到最终的表目录下。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
云容器实例支持导入已有的SFS 3.0文件存储。 登录云容器实例控制台,单击左侧导航栏的“存储管理 > 文件存储卷”。 如果您在弹性文件存储中创建了SFS 3.0文件存储,可以这里导入后使用,请执行2。 如果您还没创建文件存储,可以直接在这里创建,请执行3。 单击“导入”,进入“导入文件存储”页面,选择需要导入的文件存储,然后单击“导入”。
输入挂载参数键值对,详情请参见设置极速文件存储挂载参数。 a:创建方式选择“已有存储卷”时可设置。 b:创建方式选择“新建存储卷”时可设置。 单击“创建”,将同时为您创建存储卷声明和存储卷。 您可以在左侧导航栏中选择“存储”,在“存储卷声明”和“存储卷”页签下查看已经创建的存储卷声明和存储卷。 创建工作负载。
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
对象存储服务-成长地图 | 华为云 对象存储服务 对象存储服务(Object Storage Service,OBS)提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 图说OBS 权限控制图解
应用场景描述 自定义输入该解决方案实践的应用场景,用户可通过该场景描述该解决方案实践的大致内容。 方案架构 非必填。该解决方案实践的方案架构,仅支持JPG、PNG格式,大小不超过10M;支持输入该方案架构的描述。方案架构可输入多组。 方案优势 该解决方案实践的方案优势。 点击【保存】,即
方案概述 应用场景 该解决方案能帮您快速在华为云上部署高可用的云上网站架构,支持业务流量跨可用区进行分发,并具备跨可用区故障容灾的能力。适用于云上搭建电商平台、门户网站、论坛、博客等高可用网站场景。 方案架构 该解决方案支持一键式部署华为云Flexus云服务器X实例、弹性负载均衡ELB、弹性公网IP
方案概述 应用场景 该解决方案依托华为云自身安全能力与安全合规生态,为用户提供一站式的等保三级安全解决方案,适用于在云上部署的关键业务系统:电商平台、政府门户网站、游戏、教育业务等场景。 方案架构 该解决方案支持一键式部署云防火墙CFW、企业主机安全HSS、web应用防火墙 WA
方案概述 应用场景 该方案能帮您快速将本地物理服务器或者云上ECS自建的MySQL数据库迁移到华为云RDS for MySQL实例,轻松实现把服务器上的应用和数据迁移到华为云。其他数据库引擎的迁移,请参照数据复制服务DRS最佳实践汇总。 方案架构 该解决方案部署架构如下图所示: 图1
PASSTHROUGH方案 方案介绍 SDK中客户端使用Interface调用目标服务时,修改原有服务发现逻辑。将原有通过Interface查找服务实例,修改为通过接口查找服务名,直接对服务名发起访问。 详细说明 对于Dubbo协议的不同版本会有不同: 2.7.4+版本:2.7.4以上的Cloud