检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从OBS导入CSV、TXT数据 创建访问密钥(AK和SK) 上传数据到OBS 创建OBS外表 执行导入数据 处理导入错误 OBS导入数据示例 父主题: 从OBS并行导入数据
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
exist,该日志说明文件在操作的过程中被删除了。 搜索HDFS的NameNode的审计日志(Active NameNode的/var/log/Bigdata/audit/hdfs/nn/hdfs-audit-namenode.log)搜索文件名,确认文件的创建时间。 搜索文件创建到出现异
大量数据文件,训练过程中读取数据效率低? 当数据集存在较多数据文件(即海量小文件),数据存储在OBS中,训练过程需反复从OBS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。 将此压缩后的文件上传至OBS。
“主机记录”:将1.d中复制的TXT记录粘贴到文本框中。 “类型”:选择“TXT-设置文本记录”。 “别名”:选择“否”。 “线路类型”:全网默认。 “TTL(秒)”:一般建议设置为5分钟,TTL值越大,则DNS记录的同步和更新越慢。 “值”:将1.d中复制的TXT记录加上引号后粘贴在对
Flink业务程序无法读取NFS盘上的文件 用户问题 Flink业务程序无法读取集群节点挂载的NFS盘上的文件。 问题现象 用户开发的Flink业务程序中需要读取用户定义的配置文件,该配置文件放在NFS盘上,NFS盘是挂载在集群节点上的,集群的所有节点均可以访问该盘。用户提交Fl
Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径,即:SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的,所以不能将Driver中获取到的
创建文件系统 功能介绍 创建文件系统 URI PUT / 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Authorization 是 String 签名信息 Date 是 String 请求时间 x-obs-bucket-type 是 String 通过此消息头明确创建文件系统。
文件上传 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。接口参考文档详细介绍了每个接口的参数和使用方法。 文件上传使用本地文件作为对象的数据源。以下代码展示了如何进行文件上传: // 认证用的ak和sk硬编码到代码中或者明文存
为其他任意格式后缀的文件。 根据导入数据原理,当数据源文件的数据量较大时,将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件数量为DataNode的整数倍时,导入性能更好。 假设您已将3个CSV数据文件存储在OBS上,其原始数据分别如下: 数据文件“product_info
是 Object 边ID属性信息,JsonArray格式。当前仅支持一个属性。 导入文件更新属性的csv文件格式如下: 点文件:点ID。 边文件(不包含label):源点ID,目的点ID。 边文件(包含label):源点ID,目的点ID,label,边ID属性。 响应参数 表4 响应Body参数说明
customer_address; OBS外表在设计上禁止往非空的路径下导出文件,但是在并发场景下会出现同一路径导出文件的情况,此时会发生异常。 异常场景:假如用户使用同一张表的数据并发导出到同一个OBS的外表,在一条SQL语句执行在OBS服务器上没有生成文件时,另一条SQL语句也执行导出,最终执行结果为两
OBS的文件夹与文件系统的文件夹是否一样? 不一样。 OBS并没有文件系统中的文件和文件夹概念。为了使用户更方便进行管理数据,OBS提供了一种方式模拟文件夹。实际上在OBS内部是通过在对象的名称中增加“/”,将该对象在OBS管理控制台上模拟成一个文件夹的形式展现。 父主题: 产品咨询
”。 新建文件夹。 具体请参见《对象存储服务控制台指南》中的新建文件夹章节。 例如: 在已创建的OBS桶“mybucket”中新建一个文件夹“output_data”。 在已创建的OBS桶“mybucket02”中新建一个文件夹“output_data”。 获取新建文件夹的OBS路径。
文件上传 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。接口参考文档详细介绍了每个接口的参数和使用方法。 文件上传使用本地文件作为对象的数据源。 本示例用于上传本地“localfile”文件到桶名为“bucketname”里,名称为“objectname”的对象。
执行导出数据示例 示例1:将表product_info_output的数据通过外表product_info_output_ext导出到数据文件中。 1 INSERT INTO product_info_output_ext SELECT * FROM product_info_output;
用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input-data1”和“/input-data2”,并创建每个桶下面的data目录“/input-data1/data”和“/input-data2/data”。 将数据源文件均匀上传至OBS数据服务器的“/inpu
查看test路径下的所有文件和文件夹以及子目录下的文件,发现只保留了文件夹TEST\和文件TEST\foo.txt。 在该场景下本地文件不一定对应原始OBS文件,在这个例子中,本地TEST\foo.txt 是云上TEST/FOO.txt,而非test/foo.txt,这个因下载成功顺序而导致结果不同。
源格式信息如下: format:外表中数据源文件的格式。OBS外表导入支持CSV、TEXT格式。缺省值为TEXT。 header:指定导出数据文件是否包含标题行,header只能用于CSV格式的文件中。 delimiter:指定数据文件行数据的字段分隔符,不指定则使用默认分隔符。