检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具,该工具提供与开源Spark兼容的命令行。 准备工作 授权。 DLI使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的企业级多租户管理。该服务提供用户身份认证、权限分配、访问
catch”异常捕获,否则可能会造成包冲突,导致函数功能异常。 环境准备 在进行UDAF开发前,请准备以下开发环境。 表1 UDAF开发环境 准备项 说明 操作系统 Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本(访问Java官网)。 安装和配置IntelliJ IDEA
is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。示例值:true. message 否 String 系统提示信息,执行成功时,信息可能为空。示例值:空。 user_name 否 String 被查询的用户名称。 privileges 否 Array
消息通知服务(Simple Message Notification,简称SMN)为DLI提供可靠的、可扩展的、海量的消息处理服务,它大大简化系统耦合,能够根据用户的需求,向订阅终端主动推送消息。可用于连接云服务、向多个协议推送消息以及集成在产生或使用通知的任何其他应用程序等场景。S
进入Spark作业编辑页面,页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志、作业结果等。如果不创建该桶,将无法查看作业日志。可以通过配置生命周期规则实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。 如果不需要创建DLI
is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。示例值:true。 message 否 String 系统提示信息,执行成功时,信息可能为空。示例值:空。 queue_name 否 String 队列名称。示例值:queue1。 privileges
Upsert Kafka结果表 功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。DLI将Flink作业的输出数据以upsert的模式输出到Kafka中。
作业管理页面。Spark作业管理页面显示所有的Spark作业,作业数量较多时,系统分页显示,您可以查看任何状态下的作业。 表1 作业管理参数 参数 参数说明 作业ID 所提交Spark作业的ID,由系统默认生成。 名称 所提交Spark作业的名称。 队列 所提交Spark作业所在的队列。
(推荐)DLI SDK V3 写作说明 本文介绍了DLI服务提供的V3版本的SDK,列举了最新版本SDK的获取地址。 SDK列表 表1提供了DLI云服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址
区列的字段数据。分区表查询时需要指定分区字段,导致查询不到表数据。 问题根因 DLI分区内表在导入数据时,如果文件数据没有包含分区字段,则系统会默认指定分区值“__HIVE_DEFAULT_PARTITION__”,当前Spark判断分区为空时,则会直接返回null,不返回具体的数据。
资源进行指定的管理操作。 了解DLI SQL常用操作与系统策略的授权关系,请参考常用操作与系统权限关系。 表1 DLI系统权限 系统角色/策略名称 描述 类别 依赖关系 DLI FullAccess 数据湖探索所有权限。 系统策略 该角色有依赖,需要在同项目中勾选依赖的角色: 创建跨源连接:VPC
配置样例 计费模式 选择弹性资源池计费模式。 按需计费 区域 选择弹性资源池所在区域。 华东-上海二 项目 每个区域默认对应一个项目,由系统预置。 系统默认项目 名称 弹性资源池名称。 dli_resource_pool 规格 选择弹性资源池规格。 标准版 CU范围 弹性资源池最大最小CU范围。
创建Hive Catalog 简介 Catalog提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 数据处理最关键的方面之一是管理元数据。 元数据可以是临时的,例如临时表、或者通过TableEnvironment注册的UDF。 元数据也可以是持久化的,例如Hive
发调试再上线),建议您使用包年/包月计费模式,可以更优惠。同时,按需计费的队列,在空闲1小时后(队列空闲是指该队列上没有正在运行的作业),系统会自动释放计算资源,再次使用时,需要重新分配计算资源,可能会耗费5~10min时间。使用包年/包月计费模式则可避免这种情况,节省等待时间。
隐私安全。 数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),提供一种安全、可靠、简单易用隐私数据加解密方案。 用户或应用程序通过凭据管理服务,创建、检索、更新、删
参数类型 说明 is_success 是 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 是 String 系统提示信息。执行成功时,信息可能为空。 object_name 否 String 对象名称。 object_type 否 String 对象类型。
如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
创建source流从Kafka获取数据,作为作业的输入数据。 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。 前提条件 Kafka是线下集群,需要通过增强型跨源连
功能描述 DLI将Flink作业的输出数据输出到Kafka中。 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。 前提条件 Kafka是线下集群,需要通过增强型跨源连
导出查询结果。 SQL模板相关API 包括保存SQL模板、创建作业模板等模板相关API。 Flink作业相关API 包括OBS授权给DLI服务、新建SQL作业、更新SQL作业、新建Flink自定义作业、更新Flink自定义作业、批量运行作业、查询作业列表、查询作业详情、查询作业执