检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Parquet格式允许读写 Parquet 数据。更多具体使用可参考开源社区文档:Parquet Format。 支持的Connector FileSystem 参数说明 表1 参数说明 参数 是否必选 默认值 类型 描述 format 是 无 String 指定使用的格式,此处应为"parquet"。
OVERWRITE DIRECTORY用于将查询结果直接写入到指定的目录,支持按CSV、Parquet、ORC、JSON、Avro格式进行存储。 语法格式 1 2 3 4 INSERT OVERWRITE DIRECTORY path USING file_format [
创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定schema,且不支持date、short、timestamp数据类型。 对于JSON格式OBS表,MAP的键类型只支持STRING类型。
默认值:反斜杠(\) 日期格式 当“文件格式”为“CSV”和“JSON”时此参数有效。 选中“高级选项”,该参数表示表中日期的格式,默认格式为“yyyy-MM-dd”。日期格式字符定义详见加载数据中的“表3 日期及时间模式字符定义”。 2000-01-01 时间戳格式 当“文件格式”为“CSV”和“JSON”时此参数有效。
代表待转换的日期值。 格式: yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 pattern 否 STRING 代表需要转换的格式。 pattern为空时,默认为yyyy-MM-dd hh:mm:ss格式。 format:格式为代表年
导入数据 功能描述 LOAD DATA可用于导入CSV、Parquet、ORC、JSON、Avro格式的数据,内部将转换成Parquet数据格式进行存储。 语法格式 1 2 LOAD DATA INPATH 'folder_path' INTO TABLE [db_name.]table_name
start_date 是 DATE 或 STRING 代表需要处理的日期。 start_date取值为STRING类型格式时,至少要包含yyyy-mm-dd且不含多余的字符串。 格式为: yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3
无 String 指定要使用的格式,这里应该是 'orc'。 Orc 格式也支持来源于 Table properties 的表属性。 举个例子,您可以设置 orc.compress=SNAPPY 来允许spappy压缩。 数据类型映射 Orc 格式类型的映射和 Apache Hive
------------ Infinity (1 row) --删除表 DROP TABLE float_t1; 当小数部分为0时,可以通过cast()转为对应范围的整数处理,小数部分会四舍五入。 示例: select CAST(1000.0001 as INT); _col0 -------
号、用户和密码等信息。 区域 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Regio
compression 否 指定压缩格式。一般为parquet格式时指定该参数,推荐使用'zstd'压缩格式。 - 示例1:创建DLI非分区表 示例说明:创建名为table1的DLI非分区表,使用USING关键字指定该表的存储格式为orc格式。 在您的实际使用中,还可以将DLI表存储为parquet类型。
BY:指定分区字段。 ROW FORMAT:行数据格式。 STORED AS:指定所存储的文件格式,当前该关键字只支持指定TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET几种格式。创建DLI表时必须指定此关键字。 TBLPROP
默认值:false compression 否 指定压缩格式。一般为parquet格式时指定该参数,推荐使用'zstd'压缩格式。 当file_format为csv时,支持设置以下OPTIONS参数。 表3 CSV数据格式OPTIONS参数说明 参数 是否必选 描述 delimiter
PARTITIONED BY:指定分区字段。 ROW FORMAT:行数据格式。 STORED AS:指定所存储的文件格式,当前该关键字只支持指定TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET格式。 LOCATION:指定OBS的路径。创建OBS表时必须指定此关键字。
图2 导出数据 表1 参数说明 参数名称 描述 数据库 当前表所在的数据库。 表名称 当前表名称。 数据格式 导出数据的文件格式。当前只支持json格式。 队列 选择队列。 压缩格式 导出数据的压缩方式,选择如下压缩方式。 none bzip2 deflate gzip 存储路径 输入或选择OBS路径。
“更多”>“导入”,数据格式选择“CSV”,数据源路径为“obs://dli-demo/order-records/”,参数配置完成后单击“确定”。请参见图5。 导入数据时,默认时间戳格式为“yyyy-MM-dd HH:mm:ss”,如果采用其他日期格式,可打开“高级选项”手动输入(本示例该选项不做修改)。
url_encode url_endcode函数用于将字符串编码为application/x-www-form-urlencoded MIME格式。 命令格式 url_encode(string <input>[, string <encoding>]) 参数说明 表1 参数说明 参数 是否必选
status.getName()); } 在提交导入作业前,可选择设置导入数据的格式,如样例所示,调用ImportJob对象的setStorageType接口设置数据存储类型为csv,数据的具体格式通过调用ImportJob对象的setCsvFormatInfo接口进行设置。 在
name=自定义委托名称。 自定义委托请参考自定义DLI委托权限。 请注意配置参数不需要用"" 或 '' 包裹。 Spark3.3.1基础镜像内置了3.1.62版本的huaweicloud-sdk-core。 准备环境 已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。
关联OBS桶中嵌套的JSON格式数据如何创建表 如果需要关联OBS桶中嵌套的JSON格式数据,可以使用异步模式创建表。 以下是一个示例的建表语句,展示了如何使用 JSON 格式选项来指定 OBS 中的路径: create table tb1 using json options(path