检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
条件函数 函数说明 表1 条件函数 条件函数 函数说明 CASE value WHEN value1_1 [, value1_2 ]* THEN result1 [ WHEN value2_1 [, value2_2 ]* THEN result2 ]* [ ELSE resultZ
入门实践 我们整理了从队列网络连通、不同类型的作业分析、数据迁移场景的常用开发指南和最佳实践内容,帮助您更好的使用DLI进行大数据分析和处理。 表1 DLI常用开发指南与最佳实践 场景 操作指导 描述 Spark SQL作业开发 使用Spark SQL作业分析OBS数据 介绍使用Spark
弹性资源池约束限制 更多弹性资源池约束限制请参考弹性资源池使用约束限制。 表1 弹性资源池约束限制 限制项 说明 资源规格 当前弹性资源池最大的计算资源 32000CUs。 弹性资源池中可创建队列的最小CU: 通用队列:4CUs SQL队列:Spark SQL队列:8CUs;HetuEngine
String 队列的类型,。 sql general all 如果不指定,默认为“sql”。 cu_count 否 Integer 与该队列绑定的计算单元数,即当前队列的CU数。 charging_mode 否 Integer 队列的收费模式。 0:系统默认default队列。按照扫描量计费。
levenshtein(string A, string B) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 A、B 是 STRING 计算Levenshtein距离需要输入的字符串。 返回值说明 返回INT类型的值。 示例代码 返回3 SELECT levenshtein('kitten'
弹性资源池与队列为DLI作业提供计算资源,创建弹性资源池,弹性资源池添加队列。 使用该DLI独享队列与MRS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
是 项目编号,用于资源隔离。获取方式请参考获取项目ID。 queue_name 是 当前所在的队列的名称,此SQL将使用当前队列的资源进行计算。 job_id 是 作业ID。 page-size 否 每页显示的最大结果行数,范围: [1, 100]。默认值为:50。 current-page
200$] [30$, 4$] (2 rows) 在对数组元素进行运算时,也能获取其它列来参与运算。例如使用transform()来计算线性方程f(x) =ax + b: SELECT xvalues, a, b, transform(xvalues, x -> a * x
numeric 的双曲正弦值。返回类型为 DOUBLE。 COS(numeric) 返回 numeric 的正切值。 TAN(numeric) 计算给定A的正切值。 TANH(numeric) 返回 numeric 的双曲正切值。返回类型为 DOUBLE。 COT(numeric) 返回
创建并使用Lakeformation元数据请参考创建并使用LakeFormation元数据。 数据库 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。 表 表是数据库最重要的组
概述 欢迎使用数据湖探索。 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark
ROWS BETWEEN…和RANGE BETWEEN…的区别: ROW为物理窗口,即根据ORDER BY子句排序后,取前N行及后N行的数据计算(与当前行的值无关,只与排序后的行号相关)。 RANGE为逻辑窗口,即指定当前行对应值的范围取值,列数不固定,只要行值在范围内,对应列都包含在内。
单击“确定”完成添加队列配置。 步骤2:创建虚拟私有云和安全组 创建虚拟私有云 登录VPC管理控制台,进入创建虚拟私有云页面。 在“创建虚拟私有云”页面,根据界面提示配置VPC和子网的参数。 具体参数说明请参考创建虚拟私有云。 其中配置IPv4网段时,请确保VPC的IPv4网段不要与下列网段重复。
如果子查询至少返回一行则返回 TRUE。 仅支持可以在 join 和分组操作中可以被重写的操作。对于流式查询,该操作在 join 和分组操作中被重写。根据输入行的数量计算查询结果所需的状态可能会无限增长。 请提供具有有效保留间隔的查询配置,以防止状态过大。 value IN (sub-query) BOOLEAN
项目编号,用于资源隔离。获取方式请参考获取项目ID。 queue_name 是 当前所在的队列的名称,此SQL若需使用资源将使用该队列的资源进行计算。 请求消息 表2 请求参数 参数 是否必选 参数类型 说明 sql 是 String 待执行的SQL语句。 currentdb 否 String
over([partition_clause] orderby_clause) 参数说明 表1 参数说明 参数 是否必选 说明 expr 是 待计算返回结果的表达式。 offset 否 偏移量,BIGINT类型常量,取值大于等于0。值为0时表示当前行,为1时表示前一行,以此类推。默认值
批处理作业类型,只支持spark类型参数。 log 否 Array of Strings 显示当前批处理作业的最后10条记录。 sc_type 否 String 计算资源类型。用户自定义时返回CUSTOMIZED。 cluster_name 否 String 批处理作业所在队列。 queue 否 String
所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 注意事项 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1
所要查询的表必须是已经存在的表,否则会出错。 此处的sub_query与聚合函数的位置不能左右互换。 示例 对表student_info按字段name进行分组,计算每组中记录数,若其记录数等于子查询中表course_info的记录数,返回表student_info中字段name等于表course_info字段name的记录数。
由于作业在触发CheckPoint时才会往Hudi表中写数据,所以需要开启CheckPoint。CheckPoint间隔根据业务需要调整,建议间隔调大。 如果CheckPoint间隔太短,数据来不及刷新会导致作业异常;建议CheckPoint间隔为分钟级。 checkpoint容忍失败次数设置,execution