搜索_华为云

小文件优化 - MapReduce服务 MRS
小文件优化 - MapReduce服务 MRS

小文件优化操作场景 Spark SQL表中，经常会存在很多小文件（大小远小于HDFS的块大小），每个小文件默认对应Spark中的一个Partition，即一个Task。在有很多小文件时，Spark会启动很多Task，此时当SQL逻辑中存在Shuffle操作时，会大大增加hash分桶数，严重影响系统性能。

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL性能调优
如何上传本地文件到集群内节点？ - MapReduce服务 MRS

如何上传本地文件到集群内节点？登录MapReduce服务管理控制台。选择“现有集群”，单击集群名，进入集群基本信息页面。在“节点管理”页签单击任一节点名称，登录到弹性云服务器管理控制台。参见申请弹性公网IP为集群的节点绑定一个弹性IP地址。参考上传文件到云服务器方式概览，将本地文件上传到集群节点。

帮助中心 > MapReduce服务 MRS > 常见问题 > 集群管理类
文件输出 - MapReduce服务 MRS
文件输出 - MapReduce服务 MRS

map 否无数据处理规则将字段值输出到文件。样例通过“CSV文件输入”算子，生成两个字段A和B。源文件如下： aaa,product bbb,Bigdata 配置“文件输出”算子，分隔符为“,”，将A和B输出到文件中：输出后的结果如下： aaa,product bbb

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Loader > 算子帮助 > 输出算子
文件输出 - MapReduce服务 MRS
文件输出 - MapReduce服务 MRS

map 否无数据处理规则将字段值输出到文件。样例通过“CSV文件输入”算子，生成两个字段A和B。源文件如下： aaa,product bbb,Bigdata 配置“文件输出”算子，分隔符为“,”，将A和B输出到文件中：输出后的结果如下： aaa,product bbb

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Loader > Loader算子帮助 > Loader输出类算子
典型场景：从SFTP服务器导入数据到Hive - MapReduce服务 MRS

各个map的输入文件。选择“FILE”，表示按文件分割源文件，即每个map处理一个或多个完整的源文件，同一个源文件不可分配至不同map，完成数据导入后保持源文件的目录结构。选择“SIZE”，表示按大小分割源文件，即每个map处理一定大小的输入文件，同一个源文件可分割至多个ma

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Loader > 数据导入
典型场景：从SFTP服务器导入数据到HDFS/OBS - MapReduce服务 MRS

删除临时路径的文件。转移临时文件存在同名文件时有以下行为： “OVERRIDE”：直接覆盖旧文件。 “RENAME”：重命名新文件。无扩展名的文件直接增加字符串后缀，有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。 “APPEND”：在旧文件尾部合并新文件内容。合并操作只

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Loader > 数据导入
小文件优化 - MapReduce服务 MRS
小文件优化 - MapReduce服务 MRS

小文件优化操作场景 Spark SQL表中，经常会存在很多小文件（大小远小于HDFS的块大小），每个小文件默认对应Spark中的一个Partition，即一个Task。在有很多小文件时，Spark会启动很多Task，此时当SQL逻辑中存在Shuffle操作时，会大大增加hash分桶数，严重影响系统性能。

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark SQL性能调优
配置NFS服务器存储NameNode元数据 - MapReduce服务 MRS

配置NFS服务器存储NameNode元数据操作场景本章节适用于MRS 3.x及后续版本。用户在部署集群前，可根据需要规划Network File System（简称NFS）服务器，用于存储NameNode元数据，以提高数据可靠性。如果您已经部署NFS服务器，并已配置NFS

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS运维管理
使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS

使用LZC压缩算法存储HDFS文件配置场景文件压缩可以减少储存文件的空间，并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC（Lempel-Ziv Compression）提供配置方法。这种压缩格

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HDFS > HDFS性能调优
典型场景：从SFTP服务器导入数据到HBase - MapReduce服务 MRS

各个map的输入文件。选择“FILE”，表示按文件分割源文件，即每个map处理一个或多个完整的源文件，同一个源文件不可分配至不同map，完成数据导入后保持源文件的目录结构。选择“SIZE”，表示按大小分割源文件，即每个map处理一定大小的输入文件，同一个源文件可分割至多个ma

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Loader > 数据导入
HDFS文件系统目录简介 - MapReduce服务 MRS

现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作，而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。表1 HDFS文件系统目录结构（适用于MRS 3.x之前版本）路径类型简略功能是否可以删除删除的后果 /tmp/spa

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HDFS
典型场景：从FTP服务器导入数据到HBase - MapReduce服务 MRS

各个map的输入文件。选择“FILE”，表示按文件分割源文件，即每个map处理一个或多个完整的源文件，同一个源文件不可分配至不同map，完成数据导入后保持源文件的目录结构。选择“SIZE”，表示按大小分割源文件，即每个map处理一定大小的输入文件，同一个源文件可分割至多个ma

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Loader > 数据导入
使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS

使用LZC压缩算法存储HDFS文件配置场景文件压缩可以减少储存文件的空间，并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC（Lempel-Ziv Compression）提供配置方法。这种压缩格

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS性能调优
文件错误导致上传文件到HDFS失败 - MapReduce服务 MRS

文件错误导致上传文件到HDFS失败问题背景与现象用hadoop dfs -put把本地文件拷贝到HDFS上，有报错。上传部分文件后，报错失败，从NameNode原生页面看，临时文件大小不再变化。原因分析查看NameNode日志“/var/log/Bigdata/hdfs

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用HDFS
修改MRS集群NTP服务器 - MapReduce服务 MRS

请准备新的NTP服务器并获取IP地址，并设置好集群与新NTP服务器的网络。请确保服务器的NTP服务状态正常，否则将导致本章节操作失败。修改MRS集群NTP服务器对系统的影响更换NTP服务器是高危操作，更换后集群时间可能将会变化。更换NTP服务器前NTP服务器与集群当前时间偏差大于150s，则需先停止集群，防止数据丢失。停止集群期间服务无法访问。

帮助中心 > MapReduce服务 MRS > 用户指南 > 管理MRS集群 > 管理MRS集群
MapReduce任务异常，临时文件未删除 - MapReduce服务 MRS

MapReduce任务异常，临时文件未删除用户问题 MapReduce任务异常临时文件为什么没有删除？ MR任务即MapReduce任务，关于MapReduce介绍请参考MapReduce。问题现象 HDFS临时目录文件过多，占用内存。原因分析 MapReduce任务提交时会将相关配置文件、jar

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Yarn
使用Spark小文件合并工具说明 - MapReduce服务 MRS

此，小文件问题是制约Hadoop集群规模扩展的关键问题。本工具主要有如下两个功能：扫描表中有多少低于用户设定阈值的小文件，返回该表目录中所有数据文件的平均大小。对表文件提供合并功能，用户可设置合并后的平均文件大小。支持的表类型 Spark：Parquet、ORC、CSV、Text、Json。

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark Core企业级能力增强
使用Loader从SFTP服务器导入数据到Hive - MapReduce服务 MRS

FTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP服务器导入数据时，确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Loader > 创建Loader数据导入作业
使用Loader从SFTP服务器导入数据到HBase - MapReduce服务 MRS

FTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP服务器导入数据时，确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Loader > 创建Loader数据导入作业
使用Loader从FTP服务器导入数据到HBase - MapReduce服务 MRS

选择按文件或大小分割源文件，作为数据导入的MapReduce任务中各个map的输入文件。选择“FILE”，表示按文件分割源文件，即每个map处理一个或多个完整的源文件，同一个源文件不可分配至不同map，完成数据导入后保持源文件的目录结构。选择“SIZE”，表示按大小分割源文件，即每个map处理

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Loader > 创建Loader数据导入作业

总条数： 6707

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

小文件优化 - MapReduce服务 MRS

如何上传本地文件到集群内节点？ - MapReduce服务 MRS

文件输出 - MapReduce服务 MRS

文件输出 - MapReduce服务 MRS

典型场景：从SFTP服务器导入数据到Hive - MapReduce服务 MRS

典型场景：从SFTP服务器导入数据到HDFS/OBS - MapReduce服务 MRS

小文件优化 - MapReduce服务 MRS

配置NFS服务器存储NameNode元数据 - MapReduce服务 MRS

使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS

典型场景：从SFTP服务器导入数据到HBase - MapReduce服务 MRS

HDFS文件系统目录简介 - MapReduce服务 MRS

典型场景：从FTP服务器导入数据到HBase - MapReduce服务 MRS

使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS

文件错误导致上传文件到HDFS失败 - MapReduce服务 MRS

修改MRS集群NTP服务器 - MapReduce服务 MRS

MapReduce任务异常，临时文件未删除 - MapReduce服务 MRS

使用Spark小文件合并工具说明 - MapReduce服务 MRS

使用Loader从SFTP服务器导入数据到Hive - MapReduce服务 MRS

使用Loader从SFTP服务器导入数据到HBase - MapReduce服务 MRS

使用Loader从FTP服务器导入数据到HBase - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线