检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建source流从表格存储服务CloudTable的HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒
disable 否 禁止表或指定分区的生命周期功能。 禁止表本身及其所有分区被生命周期回收,优先级高于恢复表分区生命周期。即当使用禁止表或指定分区的生命周期功能时,设置待禁止或恢复生命周期的表的分区信息是无效的。 禁止表的生命周期功能后,表的生命周期配置及其分区的enable和disable标记会被保留。
disable 否 禁止表或指定分区的生命周期功能。 禁止表本身及其所有分区被生命周期回收,优先级高于恢复表分区生命周期。即当使用禁止表或指定分区的生命周期功能时,设置待禁止或恢复生命周期的表的分区信息是无效的。 禁止表的生命周期功能后,表的生命周期配置及其分区的enable和disable标记会被保留。
操作场景 本节操作介绍创建Flink作业时,配置流应用实现高可靠性能的操作方法。 操作步骤 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,单击链接确认订阅即可。 图1 创建主题 图2 添加订阅
创建source流从表格存储服务CloudTable的HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒
Flink作业推荐配置指导 用户在创建Flink作业时,可以通过如下配置实现流应用的高可靠性能。 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,单击链接确认订阅即可。 图1 创建主题 图2 添加订阅 登录DLI控制台,创建Flink
使用canal-json读取kafka中的canal记录,并输出到print中。 根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性(通用队列 > 找到作业的所属队列 > 更多 > 测试地址连通性
示例3:使用CTAS语句将源表的全部数据或部分数据创建新的DLI表 示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即不论在创建t
窗口去重 功能描述 窗口去重是一种特殊的去重,它根据指定的多个列来删除重复的行,保留每个窗口和分区键的第一个或最后一个数据。 对于流式查询,与普通去重不同,窗口去重只在窗口的最后返回结果数据,不会产生中间结果。它会清除不需要的中间状态。 因此,窗口去重查询在用户不需要更新结果时,
查询作业列表 功能介绍 查询当前用户的作业列表,可以根据作业ID作为ID,查询大于ID或小于ID的限定条数的作业,默认查询全部状态的作业,也可以设定运行中或其他状态条件。 调试 您可以在API Explorer中调试该接口。 URI URI格式 GET /v1.0/{projec
CU数量 一个CU为1核4G的资源量。CU数量范围为2~10000个。 管理单元 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 作业的并行数是指作业中各个算子的并行执行的子任务的数量,即算子子任务数就是其对应算子的并行度。 说明: 并行数不能大于计算单元(CU数量-管理单元CU数量)的4倍。
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
是 String 导出数据的储存路径(当前仅支持将数据存储在OBS上)。另外,“export_mode”配置为“errorifexists”时,该路径下的文件夹须不存在,如请求样例中的“test”文件夹。 data_type 是 String 导出数据的类型,目前API支持csv和json格式数据。
INITCAP(string) 返回新形式的 STRING,其中每个单词的第一个字符转换为大写,其余字符转换为小写。这里的单词表示字母数字的字符序列。 CONCAT(string1, string2, ...) 返回连接 string1,string2, … 的字符串。如果有任一参数为 NULL,则返回
参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。 对于批处理的 SQL 查询,分组窗口函数的 time_attr 参数必须是一个 TIMESTAMP 类型的属性。 表1 分组函数表
primary_key = "c_timeminute" ); 注意事项 stream_id所定义的流格式需和数据库中的表格式一致。 示例 将流audi_cheaper_than_30w的数据输出到数据库test的audi_cheaper_than_30w表下。 1 2 3 4 5 6
primary_key = "c_timeminute" ); 注意事项 stream_id所定义的流格式需和数据库中的表格式一致。 示例 将流audi_cheaper_than_30w的数据输出到数据库test的audi_cheaper_than_30w表下。 1 2 3 4 5 6
分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。 对于批处理的 SQL 查询,分组窗口函数的 time_attr 参数必须是一个 TIMESTAMP 类型的属性。 表1 分组函数表
proctime表示table1的proctime处理时间属性(计算列) 使用FOR SYSTEM_TIME AS OF table1.proctime表示当左边表的记录与右边的维表join时,只匹配当前处理时间维表所对应的的快照数据。 注意事项 仅支持带有处理时间的 temporal tables