检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。
因此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。 对表文件提供合并功能,用户可设置合并后的平均文件大小。
文件输出 概述 “文件输出”算子,用于配置已生成的字段通过分隔符连接并输出到文件。 输入与输出 输入:需要输出的字段 输出:文件 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。
文件输出 概述 “文件输出”算子,用于配置已生成的字段通过分隔符连接并输出到文件。 输入与输出 输入:需要输出的字段 输出:文件 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。
HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。
文件错误导致上传文件到HDFS失败 问题背景与现象 用hadoop dfs -put把本地文件拷贝到HDFS上,有报错。 上传部分文件后,报错失败,从NameNode原生页面看,临时文件大小不再变化。
原因分析 MapReduce任务提交时会将相关配置文件、jar包和-files参数后添加的文件都上传至HDFS的临时目录,方便Container启动后获取相应的文件。
文件最大打开句柄数设置太小导致读写文件异常 问题背景与现象 文件最大打开句柄数设置太小,导致文件句柄不足。写文件到HDFS很慢,或者写文件失败。
写HDFS文件 功能简介 写文件过程为: 实例化一个FileSystem。 由此FileSystem实例获取写文件的各类资源。 将待写内容写入到HDFS的指定文件中。 在写完文件后,需关闭所申请资源。
删除HDFS文件 功能简介 删除HDFS上某个指定文件或者文件夹。 被删除的文件或文件夹,会被放在当前用户目录下的.Trash/Current文件夹中。若发生误删除,可从该文件夹中恢复。
string 否 \n 文件名是否作为字段 自定义一个字段,以当前数据所在的文件名作为该字段值。 string 否 无 绝对路径 配置“文件名是否作为字段”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。
获取指定目录文件列表 功能介绍 在MRS集群中获取指定目录文件列表。 接口约束 无 调用方法 请参见如何调用API。
读HDFS文件 功能简介 获取HDFS上某个指定文件的内容。 在完成后,需关闭所申请资源。 代码样例 如下是读文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsMain类。
参考上传文件到云服务器方式概览,将本地文件上传到集群节点。 父主题: 集群管理类
HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。
string 否 \n 文件名是否作为字段 自定义一个字段,以当前数据所在的文件名作为该字段值。 string 否 无 绝对路径 配置“文件名是否作为字段”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。
在Hue页面上传大文件失败 问题 通过Hue页面上传大文件时,上传失败。 回答 不建议使用Hue文件浏览器上传大文件,大文件建议使用客户端通过命令上传。 如果必须使用Hue上传,参考以下步骤修改Httpd的参数: 以omm用户登录主管理节点。
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。