检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
查询或者删除HDFS文件失败 问题背景与现象 使用HDFS的shell客户端查询或者删除文件失败,父目录可以看见此文件(不可见字符)。 图1 父目录文件列表 原因分析 可能是该文件写入时有异常,写入了不可见字符。可以将该文件名重定向写入本地文本中,使用vi命令打开。 hdfs dfs
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
如何上传本地文件到集群内节点? 登录MapReduce服务管理控制台。 选择“现有集群”,单击集群名,进入集群基本信息页面。 在“节点管理”页签单击任一节点名称,登录到弹性云服务器管理控制台。 参见申请弹性公网IP为集群的节点绑定一个弹性IP地址。 参考上传文件到云服务器方式概览,将本地文件上传到集群节点。
keytab”文件。 登录他域HetuEngine集群FusionInsight Manager页面。 选择“系统 > 权限 > 用户”。 选择对应的数据源用户,在“操作”列中选择“更多 > 下载认证凭据”。 从下载的文件中解压出来的“user.keytab”文件就是用户的凭据文件。 使
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
到Mapreduce引擎后进行查询,发现数据没有查询出来。 回答 由于Hive使用Tez引擎在执行union语句时,生成的输出文件会存在HIVE_UNION_SUBDIR目录,切回Mapreduce引擎后默认不读取目录下的文件,所以没有读取到HIVE_UNION_SUBDIR目录下的数据。
此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。 对表文件提供合并功能,用户可设置合并后的平均文件大小。 支持的表类型 Spark:Parquet、ORC、CSV、Text、Json。
到Mapreduce引擎后进行查询,发现数据没有查询出来。 回答 由于Hive使用Tez引擎在执行union语句时,生成的输出文件会存在HIVE_UNION_SUBDIR目录。 切回Mapreduce引擎后默认不读取目录下的文件,所以没有读取到HIVE_UNION_SUBDIR目录下的数据。
HDFS文件操作的Java示例程序。 本工程主要给出了创建HDFS文件夹、写文件、追加文件内容、读文件和删除文件/文件夹等相关接口操作示例。 hdfs-c-example HDFS C语言开发代码样例。 本示例提供了基于C语言的HDFS文件系统连接、文件操作如创建文件、读写文件、追加文件、删除文件等。
MRS租户管理中的动态资源计划页面无法刷新怎么办? 问: MRS租户管理中的动态资源计划页面无法刷新怎么办? 答: 以root用户分别登录Master1和Master2节点。 执行ps -ef |grep aos命令检查aos进程号。 执行kill -9 aos进程号 结束aos进程。
现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。 表1 HDFS文件系统目录结构(适用于MRS 3.x之前版本) 路径 类型 简略功能 是否可以删除 删除的后果 /tmp/spa
集群HDFS文件接口 获取指定目录文件列表 父主题: API V2
)目录不存在,系统会自动创建出来“aaa”目录,但是不会在“aaa”目录下面再创建“blee”目录。 如果源端“blee”不是空目录,且目的端“aaa”目录不存在,系统会自动创建出来“aaa”目录,并在“aaa”目录下面再创建“blee”目录,进行文件迁移。 解决办法 进行迁移操
MapReduce任务异常,临时文件未删除 用户问题 MapReduce任务异常临时文件为什么没有删除? MR任务即MapReduce任务,关于MapReduce介绍请参考MapReduce。 问题现象 HDFS临时目录文件过多,占用内存。 原因分析 MapReduce任务提交时会将相关配置文件、jar
map 否 无 数据处理规则 将字段值输出到文件。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。