检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4
SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink
version.enable"); 开启多版本功能后,在执行insert overwrite或者truncate操作时会自动在OBS存储路径下存储多版本数据。关闭多版本功能后,需要通过如下命令把多版本数据目录回收。 RESTORE TABLE [db_name.]table_name
DROP COLUMN不支持rctext、rcbinary、rcfile 格式存储的表。由于connector对不同文件格式的列访问模式不同,drop column后可能会出现查询失败的情况,例如: 对于orc格式存储的非分区表 ,drop column后如果查询失败,需要设置Session属性:
p'时需配置。 connector.properties.* 否 配置kafka任意原生属性。 示例 从Kafka中读取编码格式为csv,对象为kafkaSource的表。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 create table
会根据排序键对输入的流进行排序。 如果 top N 的记录发生了变化,变化的部分会以撤销、更新记录的形式发送到下游。 如果 top N 记录需要存储到外部存储,则结果表需要拥有相同与 Top-N 查询相同的唯一键。 示例 查询每个分类实时销量最大的五个产品 SELECT * FROM (
要获得访问和使用DIS(数据接入服务)DIS Administrator权限。 ctable_adm:访问和使用CloudTable(表格存储服务)的CloudTable Administrator权限。 vpc_netadm:使用VPC(虚拟私有云)的VPC Administrator权限。
会根据排序键对输入的流进行排序。 如果 top N 的记录发生了变化,变化的部分会以撤销、更新记录的形式发送到下游。 如果 top N 记录需要存储到外部存储,则结果表需要拥有相同与 Top-N 查询相同的唯一键。 示例 查询每个分类实时销量最大的五个产品 SELECT * FROM (
会根据排序键对输入的流进行排序。 如果 top N 的记录发生了变化,变化的部分会以撤销、更新记录的形式发送到下游。 如果 top N 记录需要存储到外部存储,则结果表需要拥有相同与 Top-N 查询相同的唯一键。 示例 查询每个分类实时销量最大的五个产品 SELECT * FROM (
> 库表管理”。 单击对应的数据库名称,进入到表管理界面。在对应表的“操作”列,单击“权限管理”,进入到表权限管理界面。 单击“授权”,授权对象选择“用户授权”,用户名选择需要授权的用户名,勾选对应需要操作的权限。如“查询表”、“插入”等根据需要勾选。 单击“确定”完成权限授权。
spark-defaults.conf 修改DLI Livy工具配置文件 上传指定的DLI Livy工具jar资源包到OBS桶路径下。 登录OBS控制台,在指定的OBS桶下创建一个存放Livy工具jar包的资源目录。例如:“obs://bucket/livy/jars/”。 进入3
XTERNAL可用于指定创建外部表;STORED AS能被用于指定文件存储的格式;LOCATION能被用于指定在OBS上存储的路径。 示例 创建一个新表orders,使用子句with指定创建表的存储格式、存储位置、以及是否为外表。 通过“auto.purge”参数可以指定涉及到数
(property_name=property_value,...)] 描述 创建一个空的schema。schema是表、视图以及其他数据库对象的容器。当指定可选参数IF NOT EXISTS时,如果系统已经存在同名的schema,将不会报错。 示例 创建一个名为web的schema:
整数类型 表1 整数类型 名称 描述 存储空间 取值范围 字面量 TINYINT 微整数 8位 -128~127 TINYINT SMALLINT 小整数 16位 -32,768 ~ +32,767 SMALLINT INTEGER 整数 32位 -2,147,483,648 ~
定schema关联的表或分区,它只会修改新添加进数据库的表的上级目录。 示例 Create schema foo; --修改schema 存储路径 ALTER SCHEMA foo SET LOCATION 'obs://bucket/newlocation'; --修改schema
data_location 是 String 数据存储的地方,分OBS表、DLI表,View。 last_access_time 是 Long 最近更新时间。是单位为“毫秒”的时间戳。 location 否 String OBS表上的存储路径。 owner 是 String 表创建者。
} 访问和使用OBS的权限策略 适用场景:DLI Flink作业下载OBS对象、OBS/DWS数据源(外表)、日志转储、使用savepoint、开启checkpoint,DLI Spark作业下载OBS对象、读写OBS外表。 { "Version": "1.1",
在“购买队列”页面,参见表2设置相关参数。 表2 参数说明 参数名称 描述 计费模式 包年/包月 该计费模式的队列为专属队列。 按需计费:建议购买cu时套餐包享受优惠。 区域 选择所在的区域。不同区域的云服务之间内网互不相通;请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。 项目 每个
建议:编程时必须加以考虑的原则。 说明:对此规则或建议进行的解释。 示例:对此规则或建议从正、反两个方面给出。 适用范围 基于DLI-Hudi进行数据存储、数据加工作业的设计、开发、测试和维护。 该设计开发规范是基于Spark 3.3.1,Hudi 0.11.0版本。 父主题: DLI Hudi开发规范
参数说明 表1 参数描述 参数 描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。 注意事项 向表中添加分区时,此表和分区列(建表时PARTITIONED BY指定的列)必须已存在,而所要添加的分区不能重复添加,否则将出错。已添加的分区可通过IF