检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BY:指GROUP BY子句中不止一列,查询语句将按照GROUP BY的所有字段分组,所有字段都相同的记录将被放在同一组中。 注意事项 GroupBy在流处理表中会产生更新结果 示例 根据score及name两个字段对表student进行分组,并返回分组结果。 1 2 insert into temp
spark.dli.job.agency.name 是 - String 自定义委托名称。 样例代码 本章节JAVA样例代码演示将DataGen数据处理后写入到OBS,具体参数配置请根据实际环境修改。 创建DLI访问DEW的委托并完成委托授权。 详细步骤请参考自定义DLI委托权限。 在DE
"2020-12-30T12:13:14.123Z" 且会以相同的格式输出。 json.map-null-key.mode 否 'FALL' String 指定处理 Map 中 key 值为空的方法。当前支持的值有:'FAIL','DROP'和'LITERAL'。 Option 'FAIL' 将抛出异常,如果遇到
接。管理控制台操作请参考增强型跨源连接。 请确保在DLI队列host文件中添加MRS集群master节点的“/etc/hosts”信息。 如何添加IP域名映射,请参见《数据湖探索用户指南》中增强型跨源连接章节。 该语法不支持安全集群。 语法格式 单个RowKey 1 2 3 4 5
当用户设置“feature”为“custom”时,该参数生效。用户可通过与“feature”参数配合使用,指定作业运行使用自定义的Flink镜像。关于如何使用自定义镜像,请参考《数据湖探索用户指南》。 resume_checkpoint 否 Boolean 异常重启是否从checkpoint恢复。
0:系统默认default队列。按照扫描量计费。 1:表示按照CU时收费。 2:表示按照包年包月收费。 resource_id 否 String 队列的资源ID。 enterprise_project_id 否 String 企业项目ID。0”表示default,即默认的企业项目。关于如何设置企业项目请参考《企业管理用户指南》。
partition_clause 否 指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否 指定数据在一个窗口内如何排序。 返回值说明 参数的数据类型。 示例代码 示例数据 为便于理解函数的使用方法,本文为您提供源数据,基于源数据提供函数相关示例。创建表logs,并添加数据,命令示例如下:
partition_clause 否 指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否 指定数据在一个窗口内如何排序。 返回值说明 参数的数据类型。 示例代码 示例数据 为便于理解函数的使用方法,本文为您提供源数据,基于源数据提供函数相关示例。创建表logs,并添加数据,命令示例如下:
目前仅支持查看“QUERY”类型作业的执行结果。 row_count 否 Integer 作业结果总条数。 input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of objects 作业结果集。
streaming-source.monitor-interval 配置数据更新间隔。 示例 该示例展示了一个经典的业务流水线,维度表来自 Hive,每天通过批处理流水线作业或 Flink 作业更新一次,kafka流来自实时在线业务数据或日志,需要与维度表连接以扩充流。 使用spark sql 创建 hive
表5。 conf Object batch配置项,参考Spark Configuration。 name String 创建时用户指定的批处理名称,不能超过128个字符。 driverMemory String Spark应用的Driver内存,参数配置例如2G, 2048M。该
Studio中,数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 通过数据治理中心的DLI SQL节点传递SQL语句到DLI中执行,请参考《DLI SQL》。 通过数据治理中心的DLI Flink
在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。 如果选择spark版本为2.3.2(即将下线)或2.4.5提交作业时,需要指定Module模块,名称为:sys.datasource
目前仅支持查看“QUERY”类型作业的执行结果。 row_count 否 Integer 作业结果总条数。 input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of Objects 作业结果集。
便于传输和在数据库中存储相同的信息。 GeoJSON 一种JSON格式的Feature信息输出格式,它便于被JavaScript等脚本语言处理,OpenLayers等地理库便是采用GeoJSON格式。此外,TopoJSON等更精简的扩展格式。 使用ST_GeometryFromT
HH:mm:ss。 时间戳格式由Java的时间模式字符串指定。Java时间模式字符串定义详见表3 日期及时间模式字符定义。 MODE:指定导入过程错误记录的处理模式,支持三种选项:PERMISSIVE、DROPMALFORMED和FAILFAST。 OPTIONS('MODE'='permissive')
HH:mm:ss。 时间戳格式由Java的时间模式字符串指定。Java时间模式字符串定义详见表3 日期及时间模式字符定义。 MODE:指定导入过程错误记录的处理模式,支持三种选项:PERMISSIVE、DROPMALFORMED和FAILFAST。 OPTIONS('MODE'='permissive')
UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息,如,返回个数,类型等。 初始化完成后,会调用process方法,真正处理在process函数中,在process中,每一次forward()调用产生一行。 如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。
Flink 支持在 TUMBLE, HOP 和 CUMULATE 上进行窗口聚合。 在流模式下,窗口表值函数的时间属性字段必须是事件时间或处理时间。关于窗口函数更多信息,参见 窗口表值函数(Windowing TVFs)。 在批模式下,窗口表值函数的时间属性字段必须是 TIMESTAMP
系统策略的扩展和补充。详细操作请参考创建自定义策略。 相关链接 《IAM产品介绍》 《创建用户组、用户并授予DLI权限》 《策略语法》 《如何修改用户策略》 《队列赋权》(API赋权) 《数据赋权》(API赋权) 《设置队列权限》(Console赋权) 《数据库权限管理》(Console赋权)