检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建OBS表时指定的路径必须是文件夹,如果建表路径是文件将导致导入数据失败。 当OBS的目录下有同名文件夹和文件时,数据导入指向该路径会优先指向文件而非文件夹。 说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。
on操作来产生新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。 提交Spark jar作业时,CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按
ErrorIfExis:如果已经存在数据,则抛出异常。 Overwrite:如果已经存在数据,则覆盖原数据。 Append:如果已经存在数据,则追加保存。 Ignore:如果已经存在数据,则不做操作。这类似于SQL中的“如果不存在则创建表”。 读取RDS上的数据 1 2 3 4 5 6 7
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 修改敏感变量的取值。 { "var_value": "string" } 响应示例 { "is_success":
如果作业运行成功则作业状态显示为“已成功”,通过以下操作查看创建的数据库和表。 可以在DLI控制台,左侧导航栏,单击“SQL编辑器”。在“数据库”中已显示创建的数据库“test_sparkapp”。 图14 查看创建的数据库 双击数据库名,可以在数据库下查看已创建成功的DLI和OBS表。 图15 查看表
参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 创建一个全局变量,且该变量为敏感变量。 { "var_name": "string", "var_value":
module_name 否 String 资源模块名 module_type 否 String 资源模块类型。 jar:用户jar文件; pyFile:用户python文件; file:用户文件。 表4 details参数说明 参数名称 是否必选 参数类型 说明 create_time 否 Long
响应参数说明 参数名称 是否必选 参数类型 说明 is_success 否 String 请求是否成功。 message 否 String 消息内容。 execute_graph 否 Object 查询作业计划的响应参数。具体请参考表3。 表3 execute_graph参数说明 参数名称
置参数及参数值。 商用 创建批处理作业API 2020年5月 序号 功能名称 功能描述 阶段 相关文档 1 支持数据扫描量套餐包 DLI增加数据扫描量套餐包,降低数据扫描量费用。 商用 产品价格详情 2 支持全局变量功能 DLI支持设置全局变量,用于保护用户关键信息。 商用 全局变量
参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 创建IEF消息通道,其中边缘节点ID为e0c2b85a-2ff7-4cbc-accd-2418dca14fa8。 {
'obs://bucketName/filePath'') partitioned by (faculytNo, classNo); 在表格中插入分区数据。 利用插入数据中的内容,可以插入以下数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
module_name 否 String 资源模块名 module_type 否 String 资源模块类型。 jar:用户jar文件; pyFile:用户python文件; file:用户文件。 表4 details参数说明 参数名称 是否必选 参数类型 说明 create_time 否 Long
e的属性。 开启数据多版本功能,用于表数据的备份与恢复。开启多版本功能后,在进行删除或修改表数据时(insert overwrite或者truncate操作),系统会自动备份历史表数据并保留一定时间,后续您可以对保留周期内的数据进行快速恢复,避免因误操作而丢失数据。多版本功能SQ
配置多版本过期数据回收站 功能描述 在DLI数据多版本功能开启后,过期的备份数据后续在执行insert overwrite或者truncate语句时会被系统直接清理。OBS并行文件系统可以通过配置回收站加速删除操作过期的备份数据。通过在表属性添加配置“dli.multi.version
您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 具体操作请参考迁移外部数据源数据至DLI。 图1 迁移数据至DLI 配置DLI读写外部数据源
参数类型 说明 is_success 否 String 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 运行ID为131、130、138、137的作业,且设置作业支持从最近创建的保存点恢复。 { "job_ids": [131
表3。 dest_vpc_id 否 String 对应服务的虚拟私有云标识。具体内容可参考《虚拟私有云API参考》。 dest_network_id 否 String 对应服务的子网网络标识。具体内容可参考《虚拟私有云API参考》。 create_time 否 Long 创建连接的时间。为UTC的时间戳。
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。DLI可以
参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 授权OBS桶bucket1的操作权限给DLI服务,用于保存用户作业的checkpoint、作业的运行日志。 { "obs_buckets":