检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
进入Spark作业编辑页面,页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志、作业结果等。如果不创建该桶,将无法查看作业日志。可以通过配置生命周期规则实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。 如果不需要创建DLI临时数据桶,并且希望不
对象存储OBS 对象存储OBS源表 对象存储OBS结果表 父主题: Connector列表
Python开发环境配置 操作场景 在安装和使用Python SDK前,确保您已经完成开发环境的基本配置。 Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual C++编译环境Visual C++ build tools 或者 Visual Studio。
SV、JSON和Avro格式。 说明: OBS表必选参数。 data_path 否 String 新增OBS表数据的存储路径,必须是OBS的路径。 说明: OBS表必选参数。 data_path配置的OBS桶路径不建议为根目录,否则清空表数据的时候,就会把根目录内的数据全部清除,导致数据丢失。
- trace :com.obs.services.exception.ObsException: OBS servcie Error Message. Request Error: ... Cause by: ObsException: com.obs.services.exception
程序包管理概述 在执行DLI作业前需要将UDF Jar包或Jar作业程序包上传到云平台进行统一的管理和维护。 有以下两种方式管理程序包: (推荐使用)上传至OBS管理程序包:提前将对应的jar包上传至OBS桶中,在作业配置时选择对应的OBS路径。 (DLI程序包功能即将停用)上传
进入OBS管理控制台,在“桶列表”下,单击已创建的OBS桶名称,本示例桶名为“dli-test-obs01”。 单击“上传对象”,将testdata.csv文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“warehousepath”的文件夹。该文件夹路径用来存储Spark创建表的元数据信息“spark
上传Jar包到OBS OBS控制台 将生成的UDAF函数Jar包文件上传到OBS目录下。 5 创建DLI程序包 DLI控制台 选择刚上传到OBS的UDAF函数的Jar文件,由DLI进行纳管。 6 创建DLI的UDAF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDAF函数。
全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量 全局变量可用于简化复杂参数。例如,可替换长难复杂变量,提升SQL语句可读性。 全局变量的使用具有以下约束限制: 存量敏感变量只有创建用户才能使用,其余普通全局变量同账号同项目下的用户共用。 如果同账号同项目下存在多
创建函数 功能描述 DLI支持创建使用UDF和UDTF等自定义函数应用于Spark作业开发当中。 具体使用自定义函数端到端的开发指导可以参考:Spark SQL作业使用UDF和Spark SQL作业使用UDTF。 语法格式 1 2 3 4 5 CREATE FUNCTION [db_name
Secret Access Key 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放, 使用时解密, 确保安全。 本示例以ak和sk保存在环境变量中为例,运行本示例前请先在本地环境中设置环境变量xxx_SDK_AK和xxx_SDK_SK。
4 上传Jar包到OBS OBS控制台 将生成的UDF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDF函数。 6 验证和使用DLI的UDF函数 DLI控制台 在DLI作业中使用创建的UDF函数。 操作步骤
path = "obs://obs-sink/car_infos", encode = "parquet", ak = "{{myAk}}", sk = "{{mySk}}" ); 数据最终在OBS中的存储目录结构为:obs://obs-sink/car
并且促使各个厂商以及研究机构将该项技术推向极限。 本示例将演示DLI直接对存储在OBS中的TPC-H数据集进行查询的操作,DLI已经预先生成了100M的TPC-H-2.18的标准数据集,已将数据集上传到了OBS的tpch文件夹中,并且赋予了只读访问权限,方便用户进行查询操作。 TPC-H的测试和度量指标
上传Jar包到OBS OBS控制台 将生成的UDTF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDTF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDTF函数。 6 验证和使用DLI的UDTF函数 DLI控制台 在DLI作业中使用创建的UDTF函数。
示例3:使用CTAS语句将源表的全部数据或部分数据创建新的DLI表 示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即
怎样将一个区域中的DLI表数据同步到另一个区域中? 可以使用OBS跨区域复制功能实现,步骤如下: 将区域一中的DLI表数据导出到自定义的OBS桶中。 具体请参考《数据湖探索用户指南》。 通过OBS跨区域复制功能将数据复制至区域二的OBS桶中。 具体请参考跨区域复制。 根据需要导入或使用对应的数据。 父主题: SQL作业开发类
rtJob对象的setOverWrite接口设置,如:importJob.setOverWrite(Boolean.TRUE)。 当OBS桶目录下有文件夹和文件同名时,加载数据会优先指向该路径下的文件而非文件夹。建议创建OBS对象时,在同一级中不要出现同名的文件和文件夹。 导入分区数据
示例3:使用CTAS将源表的全部数据或部分数据创建新的DLI表 示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即不
DLI委托。 授权DLI读写OBS的权限并不包含在的DLI委托dli_management_agency中。需要您创建自定义委托,并将委托配置在作业中(使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时需要配置)。 了解dli_management_agency请参考DLI委托概述。