检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。 前提条件 Kafka是线下集群,需要通过增强型跨源连接功能将Flink作业与Kafka进行对接。且用户可以根据实际所需设置相应安全组规则。 注意事项 对接的Kafka集群不支持开启SASL_SSL。
Spark作业的实际资源使用情况 查看Spark作业原始资源配置 登录DLI 控制台,单击左侧“作业管理”>“Spark作业”,在作业列表中找到需要查看的Spark作业,单击“作业ID”前的,即可查看对应Spark作业的原始资源配置参数。 在创建Spark作业时,配置了“高级配置”中的
Driver日志:查看运行作业的日志。 重新执行作业 在“Spark作业”页面,单击对应作业“操作”列中的“编辑”,跳转至“Spark作业编辑”页面,可根据需要修改参数,执行作业。 查找作业 在“Spark作业”页面,选择“状态”或“队列”。系统将根据设置的过滤条件,在作业列表显示符合对应条件的作业。
DLI内置依赖包 DLI内置依赖包是平台默认提供的依赖包,用户打包Spark或Flink jar作业jar包时,不需要额外上传这些依赖包,以免与平台内置依赖包冲突。 Spark 3.1.1 依赖包 表1 Spark 3.1.1 依赖包 依赖包名称 accessors-smart-1
会根据排序键对输入的流进行排序。 如果 top N 的记录发生了变化,变化的部分会以撤销、更新记录的形式发送到下游。 如果 top N 记录需要存储到外部存储,则结果表需要拥有相同与 Top-N 查询相同的唯一键。 示例 查询每个分类实时销量最大的五个产品 SELECT * FROM (
长后也不会超过10G)需要针对具体场景来进行例外处理: 持续大量新增数据的维度表 方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算
'driver'='com.mysql.jdbc.Driver')") 表1 创建表参数 参数 说明 url RDS的连接地址,需要先创建跨源连接,管理控制台操作请参考《数据湖探索用户指南》。 创建经典型跨源连接后,使用经典型跨源连接中返回的连接地址。 创建增强型跨源连
instant_time => '[instant]'); 参数描述 表1 参数描述 参数 描述 table_name 需要回滚的Hudi表的表名,必选 instant 需要回滚的Hudi表的commit instant时间戳,必选 示例 call rollback_to_instant(table
选择“跨源管理 > 增强型跨源”。 进入增强型跨源连接列表页面,选择您需要查看的增强型跨源连接。 在列表页面的右上方单击可以自定义显示列,并设置表格内容显示规则、操作列显示规则。 在列表页面上方的搜索区域,您可以名称和标签筛选需要的增强型跨源连接。 单击查看增强型跨源连接详细信息。 支持查看以下信息:
参数描述 参数 描述 table_name 需要清理无效数据文件的Hudi表的表名,必选。 op_type 命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。 dry_run:显示需要清理的无效数据文件。 repair:显示并清理无效的数据文件。
窗口函数 窗口函数跨查询结果的行执行计算。它们在HAVING子句之后但在ORDER BY子句之前运行。调用窗口函数需要使用OVER子句来指定窗口的特殊语法。窗口具有三个组成部分: 分区规范,它将输入行分为不同的分区。这类似于GROUP BY子句如何将行分为聚合函数的不同组。 排序
管理SQL作业 在SQL作业列表页面查看作业的基本信息 DLI SQL作业管理页面显示所有SQL作业,作业数量较多时,系统分页显示,可根据需要跳转至指定页面。您可以查看任何状态下的作业。作业列表默认按创建时间降序排列。 表1 作业管理参数 参数 参数说明 队列 作业所属队列的名称。
授权DLI读写OBS的权限并不包含在的DLI委托dli_management_agency中。需要您创建自定义委托,并将委托配置在作业中(使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时需要配置)。 了解dli_management_agency请参考DLI委托概述。 创
UDTF函数需继承TableFunction函数,并实现eval方法。open函数及close函数可选。如果需要UDTF返回多列,只需要将返回值声明成Tuple或Row即可。若使用Row,需要重载getResultType声明返回的字段类型。 编写代码示例 import org.apache
新创建的自定义函数F2立即生效 无影响。 如果创建自定义函数携带OR REPLACE,表示需要对已有的函数内容进行功能替换并实时生效。 该功能开启当前需要提交工单开通白名单。 如果要在所有SQL队列上立即生效,需要分别选择SQL队列执行一遍:CREATE OR REPLACE xxx FUNCTION
UDTF函数需继承TableFunction函数,并实现eval方法。open函数及close函数可选。如果需要UDTF返回多列,只需要将返回值声明成Tuple或Row即可。如果使用Row,需要重载getResultType声明返回的字段类型。 编写代码示例 import org.apache
说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 代表需要被四舍五入的值。 参数a的格式包括浮点数格式、整数格式、字符串格式。 d 否 INT类型。 默认值:0。 代表需要四舍五入到的位数。 参数d非INT类型时,会隐式转换为INT类型后参与运算。 返回值说明
Key),表示一组密钥对,用于验证调用API发起请求的访问者身份,与密码的功能相似。用户通过调用API接口进行云资源管理(如创建集群)时,需要使用成对的AK/SK进行加密签名,确保请求的机密性、完整性和请求双方身份的正确性。获取AK/SK操作步骤如下: 注册并登录华为云管理控制台。
如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
将区域一中的DLI表数据导出到自定义的OBS桶中。 具体请参考《数据湖探索用户指南》。 通过OBS跨区域复制功能将数据复制至区域二的OBS桶中。 具体请参考跨区域复制。 根据需要导入或使用对应的数据。 父主题: SQL作业开发类