检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业使用咨询 DLI Spark作业是否支持定时周期任务作业 DLI Spark不支持作业调度,用户可以通过其他服务,例如数据湖管理治理中心DataArts Studio服务进行调度,或者通过API/SDK等方式对作业进行自定义调度 。 使用DataArts Studi
怎样升级DLI作业的引擎版本 DLI提供了Spark和Flink计算引擎,为用户提供了一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,当前,Flink计算引擎推荐版本:Flink 1.15,Spark计算引擎推荐版本: Spark 3.3.1。 本节操作介绍如何升级作业的引擎版本。
重启/扩容/缩容队列 功能介绍 该API用于重新启动队列、扩容队列、缩容队列。 只有SQL类型的队列支持重启,且重启的时候队列的状态必须是可用状态(执行SQL作业成功后队列状态才是可用状态)。 调试 您可以在API Explorer中调试该接口。 URI URI格式: PUT /v1
本章节介绍了目前DLI所提供的API列表。 表1 DLI API列表 类型 说明 权限相关API 包括队列赋权、查看队列的使用者、数据赋权、查看数据库的使用者、查看表的使用者、查看表的用户权限和查看赋权对象使用者权限信息。 全局变量相关API 包括创建全局变量、删除全局变量、修改全局变量和查询所有全局变量。
/v3/{project_id}/elastic-resource-pools/{elastic_resource_pool_name}/scale-records 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。
dli_elastic_resource_pool:弹性资源池 dli_enhanced_datasource:增强型跨源连接 dli_database:数据库 dli_package_resource:资源包(不支持指定有Module ID的内置资源包) dli_flink_job:Flink作业
"lakeformation:database:create", "lakeformation:database:drop", "lakeformation:database:describe",
Flink作业输出流写入数据到OBS,通过该OBS文件路径创建的DLI表查询无数据 问题现象 使用Flink作业输出流写入数据到了OBS中,通过该OBS文件路径创建的DLI表进行数据查询时,无法查询到数据。 例如,使用如下Flink结果表将数据写入到OBS的“obs://obs-sink/car_infos”路径下。
Flink作业常用操作 用户创建了新作业后,需要根据用户的实际需求对作业进行操作,包括编辑作业基本信息,启停作业、导入/导出作业等。 编辑作业 用户可以对已经创建的作业进行编辑,如修改SQL语句、作业名称和描述、作业配置信息等。 在DLI管理控制台的左侧导航栏中,单击“作业管理”
Flink作业推荐配置指导 用户在创建Flink作业时,可以通过如下配置实现流应用的高可靠性能。 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,单击链接确认订阅即可。 图1 创建主题 图2
Flink作业提交错误,如何定位 在Flink作业管理页面,将鼠标悬停到提交失败的作业状态上,查看失败的简要信息。 常见的失败原因可能包括: CU资源不足:需扩容队列。 生成jar包失败:检查SQL语法及UDF等。 如果信息不足以定位或者是调用栈错误,可以进一步单击作业名称,进入
Flink作业相关 前提条件 已参考Java SDK概述配置Java SDK环境。 已参考初始化DLI客户端完成客户端DLIClient的初始化,参考队列相关完成队列创建等操作。 新建SQL作业 DLI提供新建Flink SQL作业的接口。您可以使用该接口新建Flink SQL作业并提交到DLI,示例代码如下:
OBS,为了确保AKSK数据安全,您可以用过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),对AKSK统一管理,有效避免程序硬编码或明文配置等问题导致的敏感信息泄露以及权限失控带来的业务风险。
OBS,为了确保AKSK数据安全,您可以用过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),对AKSK统一管理,有效避免程序硬编码或明文配置等问题导致的敏感信息泄露以及权限失控带来的业务风险。
计费样例 计费场景 某公司用户A申请了256CUs的弹性资源池,并将1TB数据存放在DLI表中。该公司想要了解采用哪种计费模式才是性价比最优的方式。 数据湖探索服务目前支持三种作业:SQL作业,Flink作业和Spark作业。SQL作业的计费包括存储计费和计算计费,Flink作业和Spark作业的计费只有计算计费。
Boolean 判断用户是否为管理员。 user_name 否 String 用户名称,即该用户在当前数据库上有权限。 privileges 否 Array of Strings 该用户在数据库上的权限。 请求示例 无 响应示例 { "is_success": true,
source/sinks参数说明 参数名称 是否必选 参数类型 说明 name 否 String 输入流或输出流名称。 records 否 Long 总记录数。 corrupted_records 否 Long 脏数据记录数。 示例 请求样例 { "job_ids": [298765, 298766]
DLI权限分类 权限大类 权限小类 控制台操作 SQL语法 队列权限 队列管理权限 请参考队列权限管理 无 队列使用权限 数据权限 数据库权限 请参考在DLI控制台配置数据库权限和在DLI控制台配置表权限 请参考 《权限列表》。 表权限 列权限 作业权限 Flink作业 请参考配置Flink作业权限
SDK使用说明。 资源相关 介绍上传资源包、查询所有资源包、查询制定资源包、删除资源包的Python SDK使用说明。 SQL作业相关 介绍数据库相关、表相关、作业相关的Python SDK使用说明。 Spark作业相关 介绍提交Spark作业、取消Spark作业、删除Spark作业等Python
String 被赋权的数据对象,命名方式为: “databases.数据库名”,则数据库下面的所有数据都将被共享。 “databases.数据库名.tables.表名”, 指定的表的数据将被共享。 “databases.数据库名.tables.表名.columns.列名”,指定的列将被共享。