检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TABLE命令创建DLI表并关联DDS上已有的collection。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联DDS之前需要创建跨源连接,绑定队列。管理控制台操作请参考增强型跨源连接。
本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 Upsert Kafka 始终以upsert方式工作,并且需要在DDL中定义主键。在具有相同主键值的消息按序存储在同一个分区的前提下,在 changlog source 定义主键意味着
限,则停止存储数据,以batch.size.bytes为准,提交该批次的数据。 batch.size.bytes 单次batch的总数据量上限,默认为1mb。如果单条数据非常小,在bulk存储到总数据量前提前到达了单次batch的条数上限,则停止存储数据,以batch.size.entries为准,提交该批次的数据。
访问DCS时,不支持复杂类型数据(Array、Struct、Map等)。 可以考虑以下几种方式进行复杂类型数据处理: 字段扁平化处理,将下一级的字段展开放在同一层Schema字段中。 使用二进制方式进行写入与读取,并通过自定义函数进行编解码。 示例 指定table 1 2 3 4 5
LI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和外部数据源之间的网络。使用DLI提供的增强型跨源连接,采用对等连接的方式打通DLI与目的数据源的VPC网络,实现数据互通。 本节操作介绍适用增强型跨源连接配置DLI与内网数据源的网络联通的操作指导。 创建增强型
什么是跨源认证? 跨源分析场景中,如果在作业中直接配置认证信息会触发密码泄露的风险,因此推荐您使用“数据加密服务DEW”或“DLI提供的跨源认证方式”来存储数据源的认证信息。 数据加密服务(Data Encryption Workshop, DEW)是一个综合的云上数据加密服务,为您解
TABLE命令创建DLI表并关联HBase上已有的表。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联HBase之前需要创建跨源连接。管理控制台操作请参考增强型跨源连接。
桶),提交运行失败的情形(例如:jar包冲突),有时日志不会写到OBS桶中 DLI Flink作业提交或运行失败时,对应生成的作业日志保存方式,包含以下三种情况: 提交失败,只会在submit-client下生成提交日志。 运行失败且在1分钟内的日志,可以直接在管理控制台页面查看,具体如下:
rk作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。 用户使用自定义镜像功能需要具备Docker相关的基础知识。 使用限制 创建自定义镜像必须使用DLI提供的基础镜像。
INTERSECT 功能描述 INTERSECT返回多个查询结果的交集。 语法格式 1 select_statement INTERSECT select_statement; 关键字 INTERSECT:返回多个查询结果的交集,且每一个SELECT语句返回的列数必须相同,列的
OVER 功能描述 窗口函数与OVER语句一起使用。OVER语句用于对数据进行分组,并对组内元素进行排序。窗口函数用于给组内的值生成序号。 语法格式 1 2 3 4 5 SELECT window_func(args) OVER ([PARTITION BY col_name
percentile_approx percentile_approx函数用于返回组内数字列近似的第p位百分数(包括浮点数)。 命令格式 percentile_approx(DOUBLE col, p [, B]) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。
percentlie_approx percentile_approx函数用于计算近似百分位数,适用于大数据量。先对指定列升序排列,然后取第p位百分数最靠近的值。 命令格式 percentile_approx (colname,DOUBLE p) 参数说明 表1 参数说明 参数 是否必选
quarter quarter函数用于返回该date所在的季度,范围为1~4。 命令格式 quarter(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 格式为: yyyy-mm-dd
ORDER BY ORDER BY ORDER BY子句用于按一个或多个输出表达式对结果集排序。 ORDER BY expression [ ASC | DESC ] [ NULLS { FIRST | LAST } ] [, ...] 每个expression可以由输出列组成,也可以是按位置选择输出列的序号。
INSERT INTO 本节操作介绍使用INSERT INTO 语句将作业结果写入Sink表中。 写数据至一个Sink表 语法格式 1 2 INSERT INTO your_sink SELECT ... FROM your_source WHERE ... 示例 本例定义了两个表my_source
按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 计费周期 按需计费DLI数据存储每一个小时整点结算一次费用(以UTC+8时间为准),结算完毕后进入新的计费周期。 计费的起点以DLI表的创建时间点为准,终点以DLI表删除时间为准。 资源从创建到启动需要一定时长,按需计费的数据存储的起点是DLI表创建
这一功能开启后,在文件转为Pending状态与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.开头的临时文件。这些临时文件随后将会按照用户指定的策略和合并方式进行合并,最终生成合并后的Pending状态的文件。 然后这些文件将被发送给Committer并提交为正式
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量
如果系统预置的DLI权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考权限策略和授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。