检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
开发Oozie配置文件 Oozie样例程序开发思路 Oozie应用开发步骤 父主题: 开发Oozie应用
map 否 无 数据处理规则 将字段值输出到文件。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb
文件错误导致上传文件到HDFS失败 问题背景与现象 用hadoop dfs -put把本地文件拷贝到HDFS上,有报错。 上传部分文件后,报错失败,从NameNode原生页面看,临时文件大小不再变化。 原因分析 查看NameNode日志“/var/log/Bigdata/hdfs
现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。 表1 HDFS文件系统目录结构 路径 类型 简略功能 是否可以删除 删除的后果 /tmp/spark2x/sparkhive-scratch
[compression]) path:访问域名/OBS文件路径,登录OBS管理控制台,在左侧导航栏单击“并行文件系统”,在“并行文件系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。
在Hue页面上传大文件失败 问题 通过Hue页面上传大文件时,上传失败。 回答 不建议使用Hue文件浏览器上传大文件,大文件建议使用客户端通过命令上传。 如果必须使用Hue上传,参考以下步骤修改Httpd的参数: 以omm用户登录主管理节点。 执行以下命令编辑“httpd.conf”配置文件。
将输入字段的值按指定的分隔符分隔后,依次赋给配置的新字段。 配置分割后字段列数,大于原始数据实际可分割出来的字段列数,当前行成为脏数据。 样例 通过“CSV文件输入”算子,生成一个字段A。 源文件如下: 配置“分隔转换”算子,“分隔符”为空格,生成三个字段B、C和D: 转换后,依次输出A、B、C和D,结果如下:
文件最大打开句柄数设置太小导致读写文件异常 问题背景与现象 文件最大打开句柄数设置太小,导致文件句柄不足。写文件到HDFS很慢,或者写文件失败。 原因分析 DataNode日志“/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-XXX.log”,存在异常提示java
航栏单击“并行文件系统”,在“并行文件系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。 sk:参数可选,具备访问OBS权限的sk。 format :文件的格式。 structure:表的结构。
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
将输入字段的值按指定的分隔符分隔后,依次赋给配置的新字段。 配置分割后字段列数,大于原始数据实际可分割出来的字段列数,当前行成为脏数据。 样例 通过“CSV文件输入”算子,生成一个字段A。 源文件如下: 配置“分隔转换”算子,“分隔符”为空格,生成三个字段B、C和D: 转换后,依次输出A、B、C和D,结果如下:
换行符。 string 否 \n 文件名是否作为字段 自定义一个字段,以当前数据所在的文件名作为该字段值。 string 否 无 绝对路径 配置“文件名是否作为字段”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。 boolean 否 不选中 验证输入字段
String 参数解释: 文件在当前目录下的后缀,如获取“/tmp”目录,下面的“/tmp/test”文件,此处path_suffix内容为“test”。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 owner String 参数解释: 文件拥有者。 约束限制: 不涉及
写HDFS文件 功能简介 写文件过程为: 实例化一个FileSystem。 由此FileSystem实例获取写文件的各类资源。 将待写内容写入到HDFS的指定文件中。 在写完文件后,需关闭所申请资源。 代码样例 如下是写文件的代码片段,详细代码请参考com.huawei.bigdata
删除HDFS文件 功能简介 删除HDFS上某个指定文件或者文件夹。 被删除的文件或文件夹,会被放在当前用户目录下的.Trash/Current文件夹中。若发生误删除,可从该文件夹中恢复。 代码样例 如下是删除文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs
换行符。 string 否 \n 文件名是否作为字段 自定义一个字段,以当前数据所在的文件名作为该字段值。 string 否 无 绝对路径 配置“文件名是否作为字段”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。 boolean 否 不选中 验证输入字段
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。 告警属性 告警ID 告警级别
读HDFS文件 功能简介 获取HDFS上某个指定文件的内容。 在完成后,需关闭所申请资源。 代码样例 如下是读文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsMain类。 /** * 读文件 * *