检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
24; 图9 查询结果 在OBS桶的“obs://dli-test-021/data3”目录下点击刷新,该目录下生成了对应的分区文件,分别存放新插入的表数据。 图10 OBS上classNo分区为“25”文件数据 图11 OBS上classNo分区为“24”文件数据 创建多分区OBS表
message 是 String 系统提示信息,执行成功时,信息可能为空。 job_id 否 String 提交请求成功时,生成并提交一个新的作业,返回作业ID。用户可以使用作业ID来查询作业状态和获取作业结果。 status 是 String 作业状态。状态可能为运行中(RUN
NON_PARTITION GLOBAL_DELETE read.streaming.check-interval 否 60 Integer 流读监测上游新提交的周期(秒),流量大时建议使用默认值,默认值:60。 read.end-commit 否 默认到最新 commit String Batch增量消费,通过参数“read
按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 计费周期 按需计费DLI数据存储每一个小时整点结算一次费用(以UTC+8时间为准),结算完毕后进入新的计费周期。 计费的起点以DLI表的创建时间点为准,终点以DLI表删除时间为准。 资源从创建到启动需要一定时长,按需计费的数据存储的起点是D
LPAD(string1, integer, string2) STRING 将string2字符串拼接到string1字符串的左端,直到新的字符串达到指定长度integer为止 任意参数为null时,返回null 若integer为负数,则返回null 若integer不大于s
watermark 仍然与前一个 watermark 相同、为空、或返回的 watermark 的值小于最后一个发出的 watermark ,则新的 watermark 不会被发出。 Watermark 根据 pipeline.auto-watermark-interval 中所配置的间隔发出。
ttl(所有分区作为临时表)设置一个相对较大的值。否则,作业容易出现性能问题,避免表更新和重新加载过于频繁。 缓存刷新需加载整个Hive表。无法区分新数据和旧数据。 参数说明 在执行与最新的Hive表的时间关联时,Hive表将被缓存到Slot内存中,然后通过键将流中的每条记录与表进行关联,
功。 message 否 String 系统提示信息,执行成功时,信息可能为空。 job_id 否 String 此SQL将生成并提交一个新的作业,返回作业ID。用户可以使用作业ID来查询作业状态和获取作业结果。 job_mode 否 String 作业执行模式: async:异步
watermark 仍然与前一个 watermark 相同、为空、或返回的 watermark 的值小于最后一个发出的 watermark ,则新的 watermark 不会被发出。 Watermark 根据 pipeline.auto-watermark-interval 中所配置的间隔发出。
Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 如需创建新的空间请参考创建并管理工作空间。 图3 进入DataArts Studio实例空间 图4 进入DataArts Studio数据开发页面
LPAD(string1, integer, string2) STRING 将string2字符串拼接到string1字符串的左端,直到新的字符串达到指定长度integer为止 任意参数为null时,返回null 若integer为负数,则返回null 若integer不大于s
权限分配 “数据工程师A”创建了一个gameTable表用于存放游戏道具相关数据,userTable表用于存放游戏用户相关数据。因为音乐业务是一个新业务,想在存量的游戏用户中挖掘一些潜在的音乐用户,所以“数据工程师A”把userTable表的查询权限赋给了“数据工程师B”。同时,“数据工
程序包需提前上传至OBS服务中保存。 只支持选择文件。 Flink Jar所在的OBS路径 分组名称 选择“已有分组”:可选择已有的分组。 选择“创建新分组”:可输入自定义的组名称。 选择“不分组”:不需要选择或输入组名称。 自定义分组或选择已有的分组名称。 图2 创建对应的Flink Jar包
创建分区表时,分区字段必须是表字段的最后一个字段或几个字段,且多分区字段的顺序也必须对应。否则将出错。 单表分区数最多允许200000个。 2024年1月后新注册使用DLI服务的用户,且使用Spark3.3及以上版本的引擎,在使用DataSource语法创建表时支持使用CTAS创建分区表。 语法格式
口在定义的间隔时间内没有事件出现,该窗口会被关闭。例如时间窗口的间隔时间是 30 分钟,当其不活跃的时间达到30分钟后,若观测到新的记录,则会启动一个新的会话时间窗口(否则该行数据会被添加到当前的窗口),且若在 30 分钟内没有观测到新纪录,这个窗口将会被关闭。会话时间窗口可以使
定义的间隔时间内没有事件出现,该窗口会被关闭。 例如时间窗口的间隔时间是 30 分钟,当其不活跃的时间达到30分钟后,如果观测到新的记录,则会启动一个新的会话时间窗口(否则该行数据会被添加到当前的窗口),且如果在 30 分钟内没有观测到新纪录,这个窗口将会被关闭。会话时间窗口可以
是否必选 参数类型 说明 sql 是 String 待执行的SQL语句。 currentdb 否 String SQL语句执行所在的数据库。当创建新数据库时,不需要提供此参数。 current_catalog 否 String 待提交作业的表的默认catalog。不填时默认使用DLI catalog。
如果JDBC结果表定义了主键,则连接器以upsert模式运行,否则,连接器以Append模式运行。 upsert模式:Flink会根据主键插入新行或更新现有行,Flink可以通过这种方式保证幂等性。为保证输出结果符合预期,建议为表定义主键。 Append模式:Flink 会将所有记录
watermark 仍然与前一个 watermark 相同、为空、或返回的 watermark 的值小于最后一个发出的 watermark ,则新的 watermark 不会被发出。 Watermark 根据 pipeline.auto-watermark-interval 中所配置的间隔发出。
型跨源、添加队列到弹性资源池并运行作业的一个完整流程,帮助您更好、更方便的使用弹性资源池。 图1 创建弹性资源池运行作业流程图 表1 创建新队列时绑定弹性资源池流程说明 阶段 说明 参考文档 步骤一:创建弹性资源池 创建弹性资源池,配置弹性资源池的基本信息,如:计费模式、CU范围、网段等配置。