检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。
(); jobInfo.setClassName("your.class.name"); jobInfo.setFile("xxx.jar"); jobInfo.setCluster_name("queueName"); // 调用BatchJob对象的
上传数据到OBS桶:通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 配置Spark作业:配置Spark作业访问OBS中存储的数据。
请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 paths 是 Array of Strings 用户OBS对象路径列表,OBS对象路径为OBS对象URL。 group 是 String 所属资源分组名。
请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 paths 是 Array of strings 用户OBS对象路径列表,OBS对象路径为OBS对象URL。 group 是 String 所属资源分组名。
可以使用OBS跨区域复制功能实现,步骤如下: 将区域一中的DLI表数据导出到自定义的OBS桶中。 具体请参考《数据湖探索用户指南》。 通过OBS跨区域复制功能将数据复制至区域二的OBS桶中。 具体请参考跨区域复制。 根据需要导入或使用对应的数据。 父主题: SQL作业开发类
只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。
obs_bucket String 保存Spark作业的obs桶,需要保存作业时配置该参数。 auto_recovery Boolean 是否开启重试功能,如果开启,可在Spark作业异常失败后自动重试。默认值为“false”。
JSON对象字符串。
请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 paths 是 Array of Strings 用户OBS对象路径列表,OBS对象路径为OBS对象URL。 group 是 String 所属资源分组名。
JSON对象和JSON数组无法转换为VARCHAR: SELECT CAST(JSON '{"a": 1, "b": 2}' AS VARCHAR); -- ERROR!
在OBS管理控制台页面通过配置桶的生命周期规则,可以实现定时删除OBS桶中的对象或者定时转换对象的存储类别。 具体操作请参考通过配置生命周期规则。 SQL编辑器页面可以批量执行SQL语句。 作业编辑窗口常用语法采用不同颜色突出显示。 支持单行注释和多行注释。
单击“上传对象”,将people.json文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“result”的文件夹。 单击“result”的文件夹,在“result”下单击“新建文件夹”,创建名为“parquet”的文件夹。
privileges 否 Array of Strings 用户在指定对象上的权限。示例值:["DESCRIBE_TABLE" ]。 表相关的权限说明请参考权限管理。
数据清理委托权限配置 允许DLI读写OBS将日志转储 自定义 DLI Flink作业下载OBS对象、OBS/DWS数据源(外表)、日志转储、使用savepoint、开启checkpoint,DLI Spark作业下载OBS对象、读写OBS外表。
目的端作业配置,具体参考如下: 表3 目的端作业配置 参数名 参数值 目的连接名称 选择1.b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。
可以通过配置生命周期规则实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。 如果不需要创建DLI临时数据桶,并且希望不再收到该提示,可以勾选“下次不再提示”并单击“取消”。
语法格式 在Spark Jar作业编辑界面,选择配置优化参数,配置信息如下: 不同的OBS桶,使用不同的AKSK认证信息。 可以使用如下配置方式,根据桶指定不同的AKSK信息,参数说明详见表1。
请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 paths 是 Array of Strings 用户OBS对象路径列表,OBS对象路径为OBS对象URL。 kind 是 String 分组资源文件的类型。 jar:用户jar文件。
示例 从Kafka中读取编码格式为csv,对象为kafkaSource的表。