数据湖探索 DLI-华为云

数据湖探索 DLI-DLI作业开发流程:创建IAM用户并授权使用DLI

创建 IAM 用户并授权使用 DLI 如果您是企业用户，并计划使用IAM对您所拥有的DLI资源进行精细的权限管理，请创建IAM用户并授权使用DLI。具体操作请参考创建IAM用户并授权使用DLI。首次使用DLI您需要根据控制台的引导更新DLI委托，用于将操作权限委托给DLI服务，让DLI服务以您的身份使用其他云服务，代替您进行一些资源运维工作。该委托包含获取IAM用户相关信息、跨源场景访问和使用VPC、子网、路由、对等连接的权限、作业执行失败需要通过 SMN 发送通知消息的权限。详细委托包含的权限请参考配置DLI云服务委托权限。

数据湖探索 DLI

数据湖探索 DLI-DLI作业开发流程:创建执行作业所需的计算资源和元数据

创建执行作业所需的计算资源和元数据使用DLI提交作业前，您需要先创建弹性资源池，并在弹性资源池中创建队列，为提交作业准备所需的计算资源。请参考DLI弹性资源池与队列简介创建弹性资源池并添加队列。您还可以通过自定义镜像增强DLI的计算环境，通过下载DLI提供的基础镜像再按需制作自定义镜像，将作业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，可以改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。 DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型，可以在运行时定义数据结构，不需要事先定义元数据。定义您的数据结构，包括数据目录、数据库、表。请参考创建DLI元数据。创建必要的存储桶来存储作业运行过程中产生的临时数据：作业日志、作业结果等。请参考配置DLI作业桶。配置元数据的访问权限。请参考在DLI控制台配置数据库权限、在DLI控制台配置表权限。

数据湖探索 DLI

数据湖探索 DLI-DLI作业开发流程:迁移数据至DLI或配置DLI跨源访问

迁移数据至DLI或配置DLI跨源访问当需要将来自不同源的数据进行集中存储和处理时，迁移数据至DLI可以提供一个统一的数据平台。您可以参考使用 CDM 迁移数据至DLI迁移数据至DLI后再提交作业。如果业务需求需要实时访问和处理来自不同数据源的数据，跨源访问可以减少数据的复制和延迟。跨源访问的必要条件包括“DLI与数据源网络连通”、“DLI可获取数据源的访问凭证”： DLI与数据源网络连通：您可以参考配置DLI与数据源网络连通（增强型跨源连接）配置DLI与数据源的网络连通。管理数据源的凭证：您可以使用DLI提供的跨源认证功能管理访问指定数据源的认证信息。适用范围：SQL作业、Flink 1.12作业场景。具体操作请参考使用DLI的跨源认证管理数据源访问凭证。您还可以使用DEW管理数据源的访问凭证，并通过“自定义委托”方式授予DLI访问DEW服务的权限。适用范围：Spark 3.3.1及以上版本、Flink 1.15及以上版本。具体操作请参考使用DEW管理数据源访问凭证和配置DLI访问其他云服务的委托权限。

数据湖探索 DLI

数据湖探索 DLI-DLI作业开发流程:使用DLI提交作业

使用DLI提交作业 DLI提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务，支持多种作业类型以满足不同的数据处理需求。表1 DLI支持的作业类型作业类型说明适用场景 SQL作业适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。详细操作请参考创建并提交SQL作业。适用于数据仓库查询、报表生成、OLAP（在线分析处理）等场景。 Flink作业专为实时数据流处理设计，适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。 Flink OpenSource作业：DLI提供了标准的连接器（connectors）和丰富的API，便于快速与其他数据系统的集成。详细操作请参考创建Flink OpenSource SQL作业。 Flink Jar作业：允许用户提交编译为Jar包的Flink作业，提供了更大的灵活性和自定义能力。适合需要自定义函数、UDF（用户定义函数）或特定库集成的复杂数据处理场景。可以利用Flink的生态系统，实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业。适用于实时数据监控、实时推荐系统等需要快速响应的场景。 Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。 Spark作业可通过交互式会话（session）和批处理（batch）方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业，简化了资源管理和作业调度。支持多种数据源和格式，提供了丰富的数据处理能力，包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。适用于大规模数据处理和分析，如机器学习训练、日志分析、大规模数据挖掘等场景。管理Jar作业的程序包 DLI允许用户提交编译为Jar包的Flink或Spark作业，Jar包中包含了Jar作业执行所需的代码和依赖信息，用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。通过DLI管理控制台可以管理作业所需的呈现包。在提交Spark Jar和Flink Jar类型的作业前，需要将程序包上传至OBS，然后在DLI服务中创建程序包，并将程序包与数据和作业参数一起提交以运行作业。管理Jar作业程序包。 Spark3.3.1及以上版本、Flink1.15及以上版本在创建Jar作业时支持直接配置OBS中的程序包，不支持读取DLI程序包。

数据湖探索 DLI

数据湖探索 DLI-经典型跨源连接（废弃，不推荐使用）:经典型跨源页面

经典型跨源页面显示所有的经典型跨源连接，连接数量较多时，系统分页显示。表1 跨源连接列表参数参数参数说明连接名称所创建的跨源连接名称。连接状态跨源连接的状态信息，具体如下：创建中已激活已失败已失效服务类型目前支持访问的数据源类型如下：表格存储服务 CloudTable 和CloudTable.OPENTSDB MapReduce服务 MRS .OPENTSDB 数据仓库服务 DWS 云数据库（关系型数据库） RDS 云搜索服务 CSS 连接地址跨源连接创建成功后将显示连接地址，用于在SQL或Spark作业中访问其他数据源。目的地址目的数据源的原始地址。创建时间每个连接的创建时间，可按创建时间顺序或倒序显示连接列表。进度连接创建的进度，用百分比表示。操作删除。当连接状态在“创建中”时，连接不可删除。重新激活。更多：绑定队列：用于为经典型跨源连接绑定队列。解绑队列：用于解除经典型跨源连接与队列之间的绑定关系。标签：对增强型跨源连接进行标签管理。

数据湖探索 DLI

数据湖探索 DLI-跨源认证概述:什么是跨源认证？

什么是跨源认证？跨源分析场景中，如果在作业中直接配置认证信息会触发密码泄露的风险，因此推荐您使用“ 数据加密服务DEW”或“DLI提供的跨源认证方式”来存储数据源的认证信息。数据加密服务（Data Encryption Workshop, DEW）是一个综合的云上数据加密服务，为您解决数据安全、密钥安全、密钥管理复杂等问题。推荐使用数据加密服务DEW来存储数据源的认证信息。 Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息，为您解决数据安全、密钥安全、密钥管理复杂等问题。具体操作请参考使用DEW管理数据源访问凭证。跨源认证用于管理访问指定数据源的认证信息。配置跨源认证后，无需在作业中重复配置数据源认证信息，提高数据源认证的安全性，便于DLI安全访问数据源。 SQL作业、Flink 1.12版本的跨源访问场景，使用DLI提供的“跨源认证”管理数据源的访问凭证。本节操作为您介绍DLI提供的跨源认证的使用方法。

数据湖探索 DLI 使用DLI的跨源认证管理数据源访问凭证

数据湖探索 DLI-跨源认证概述:约束与限制

约束与限制仅Spark SQL、和Flink OpenSource SQL 1.12版本的作业支持使用跨源认证。仅在2023年5月1日后创建的队列，支持Flink作业使用跨源认证。 DLI支持四种类型的跨源认证，不同的数据源按需选择相应的认证类型。 CS S类型跨源认证：适用于“6.5.4”及以上版本的CSS集群且集群已开启安全模式。 Kerberos类型的跨源认证：适用于开启Kerberos认证的MRS安全集群。 Kafka_SSL类型的跨源认证：适用于开启SSL的Kafka。 Password类型的跨源认证：适用于DWS、RDS、DDS、DCS数据源。

数据湖探索 DLI 使用DLI的跨源认证管理数据源访问凭证

数据湖探索 DLI-跨源认证概述:支持跨源认证的数据源与作业类型

支持跨源认证的数据源与作业类型不同类型的作业支持跨源认证的数据源与认证方式不同。 Spark SQL支持跨源认证的数据源与约束限制请参考表1。 Flink OpenSource SQL 1.12支持跨源认证的数据源与约束限制请参考表2。表1 Spark SQL支持跨源认证的数据源跨源认证类型数据源约束与限制 CSS CSS CSS集群版本选择“6.5.4”或“6.5.4”以上版本。 CSS集群已开启“安全模式”。 Password DWS、RDS、DDS、Redis - 表2 Flink OpenSource SQL 1.12支持跨源认证的数据源表类型跨源认证类型数据源约束与限制源表 Kerberos HBase MRS安全集群已开启Kerberos认证。 Kafka MRS Kafka开启Kerberos认证。 Kafka_SSL Kafka DMS Kafka开启SASL_SSL认证。 MRS Kafka开启SASL认证。 MRS Kafka开启SSL认证。 Password DWS、RDS、Redis - 结果表 Kerberos HBase MRS安全集群已开启Kerberos认证。 Kafka MRS Kafka开启Kerberos认证。 Kafka_SSL Kafka DMS Kafka开启SASL_SSL认证。 MRS Kafka开启SASL认证。 MRS Kafka开启SSL认证。 Password DWS、RDS、CSS、Redis - 维表 Kerberos HBase MRS安全集群已开启Kerberos认证。 Password DWS、RDS、Redis -

数据湖探索 DLI 使用DLI的跨源认证管理数据源访问凭证

数据湖探索 DLI-跨源认证概述:跨源认证类型

跨源认证类型 DLI支持四种类型的跨源认证，不同的数据源按需选择相应的认证类型。 CSS类型跨源认证：适用于“6.5.4”及以上版本的CSS集群且集群已开启安全模式。配置时需指定集群的用户名、密码、认证证书，通过跨源认证将以上信息存储到DLI服务中，便于DLI安全访问CSS数据源。详细操作请参考创建CSS类型跨源认证。 Kerberos类型的跨源认证：适用于开启Kerberos认证的MRS安全集群。配置时需指定MRS集群认证凭证，包括“krb5.conf”和“user.keytab”文件。详细操作请参考创建Kerberos跨源认证。 Kafka_SSL类型的跨源认证：适用于开启SSL的Kafka，配置时需指定KafkaTruststore路径和密码。详细操作请参考创建Kafka_SSL类型跨源认证。 Password类型的跨源认证：适用于DWS、RDS、DDS、DCS数据源，配置时将数据源的密码信息存储到DLI。详细操作请参考创建Password类型跨源认证。

数据湖探索 DLI 使用DLI的跨源认证管理数据源访问凭证

数据湖探索 DLI-增强型跨源连接概述:什么是增强型跨源连接？

什么是增强型跨源连接？ DLI跨源分析场景连接外部数据源时，由于数据源的VPC与DLI VPC不同，网络无法连通，导致DLI无法读取数据源数据。DLI提供的增强型跨源连接功能可以实现DLI与数据源的网络连通。本节操作为您介绍跨VPC的数据源网络连通方案：创建增强型跨源连接：采用对等连接的方式打通DLI与数据源的VPC网络。测试网络连通性：验证队列与数据源网络连通性。目前DLI支持跨源访问的数据源请参考DLI常用跨源分析开发方式。在跨源开发场景中直接配置跨源认证信息存在密码泄露的风险，Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息，为您解决数据安全、密钥安全、密钥管理复杂等问题。具体操作请参考使用DEW管理数据源访问凭证。

数据湖探索 DLI 配置DLI与数据源网络连通（增强型跨源连接）

数据湖探索 DLI-增强型跨源连接概述:约束和限制

约束和限制在同一队列中，如果同时使用了经典型跨源连接和增强型跨源连接，则经典型跨源连接优先于增强型跨源连接。推荐使用增强型跨源连接。 DLI提供的default队列不支持创建跨源连接。 Flink作业访问DIS，OBS和SMN数据源，无需创建跨源连接，可以直接访问。增强型跨源仅支持包年包月队列、按需计费模式下的专属队列。增强型跨源连接需要使用VPC、子网、路由、对等连接功能，因此需要获得VPC（虚拟私有云）的VPC Administrator权限。可在服务授权中进行设置。使用DLI增强型跨源时，弹性资源池/队列的网段与数据源网段不能重合。访问跨源表需要使用已经创建跨源连接的队列。跨源表不支持Preview预览功能。检测跨源连接的连通性时对IP约束限制如下： IP必须为合法的IP地址，用“.”分隔的4个十进制数，范围是0-255。测试时IP地址后可选择添加端口，用":"隔开，端口最大限制5位，端口范围：0~65535。例如192.168.xx.xx或者192.168.xx.xx:8181。检测跨源连接的连通性时对域名约束限制如下：域名的限制长度为1到255的字符串，并且组成必须是字母、数字、下划线或者短横线。域名的顶级域名至少包含两个及以上的字母，例如.com，.net，.cn等。测试时域名后可选择添加端口，用":"隔开，端口最大限制为5位，端口范围：0~65535。例如example.com:8080。

数据湖探索 DLI 配置DLI与数据源网络连通（增强型跨源连接）

数据湖探索 DLI-管理Flink作业模版:自定义模板

自定义模板自定义模板列表显示所有的jar作业模板，自定义模板列表参数说明如表 1所示。表3 自定义模板列表参数参数参数说明名称模板名称，只能由英文、中文、数字、中划线和下划线组成，并且长度为1～64个字符。类型模板类型。 Flink SQL作业模板 Flink OpenSource SQL作业模板描述模板的相关描述，且长度为0～512个字符。创建时间创建模板的时间。更新时间最后修改模板的时间。操作 “编辑”：对已经创建好的模板进行修改。 “创建作业”：直接在该模板下创建作业，创建完后，系统跳转到“作业管理”下的作业编辑页面。更多： “删除”：将已经创建的模板删除。 “标签”：查看或添加标签。

数据湖探索 DLI

数据湖探索 DLI-管理Flink作业模版:Flink SQL样例模板

Flink SQL样例模板 Flink SQL样例模板列表显示已有的Flink SQL样例作业模板，Flink SQL样例模板列表参数说明如表 1所示。已有样例模板的具体场景以控制台为准。表1 Flink SQL样例模板列表参数参数参数说明名称模板名称，只能由英文、中文、数字、中划线和下划线组成，并且长度为1～64个字符。描述模板的相关描述，且长度为0～512个字符。操作 “创建作业”：直接在该模板下创建作业，创建完后，系统跳转到“作业管理”下的作业编辑页面。

数据湖探索 DLI

数据湖探索 DLI-管理Flink作业模版:Flink OpenSource SQL样例模板

Flink OpenSource SQL样例模板 Flink OpenSource SQL样例模板列表显示已有的Flink OpenSource SQL样例作业模板，Flink OpenSource SQL样例模板列表参数说明如表 1所示。表2 Flink OpenSource SQL样例模板列表参数参数参数说明名称模板名称，只能由英文、中文、数字、中划线和下划线组成，并且长度为1～64个字符。描述模板的相关描述，且长度为0～512个字符。操作 “创建作业”：直接在该模板下创建作业，创建完后，系统跳转到“作业管理”下的作业编辑页面。当前已有的样例模板包括如下场景：利用地址信息的维表生成订单信息宽表实时统计每天成交额、订单数和支付人数等指标统计实时点击量最高的商品

数据湖探索 DLI

数据湖探索 DLI-迁移Elasticsearch数据至DLI:步骤二：数据迁移

步骤二：数据迁移配置CDM数据源连接。配置源端CSS的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“ 云搜索服务”，单击“下一步”。图1 创建CSS数据源配置源端CSS的数据源连接，具体参数配置如下。详细参数配置可以参考CDM上配置CSS连接。表1 CSS数据源配置参数值名称自定义CSS数据源名称。例如当前配置为“source_css”。 Elasticsearch服务器列表单击输入框旁边的“选择”按钮，选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。安全模式认证如果所需连接的CSS集群在创建时开启了“安全模式”，该参数需设置为“是”，否则设置为“否”。本示例选择为“否”。图2 CDM配置CSS数据源单击“保存”完成CSS数据源配置。配置目的端DLI的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“ 数据湖探索（DLI）”，单击“下一步”。图3 创建DLI数据源连接配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接。图4 配置DLI数据源连接参数配置完成后，单击“保存”完成DLI数据源配置。创建CDM迁移作业。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。在新建作业界面，配置当前作业配置信息，具体参数参考如下：图5 新建CDM作业作业配置作业名称：自定义数据迁移的作业名称。例如，当前定义为：css_to_dli。源端作业配置，具体参考如下：表2 源端作业配置参数名参数值源连接名称选择1.a中已创建的数据源名称。索引选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。索引名称只能全部小写，不能有大写。类型 Elasticsearch的类型，类似关系数据库中的表名称。类型名称只能全部小写，不能有大写。当前示例为：“_doc”。更多其他参数说明可以参考：CDM配置CSS源端参数。目的端作业配置，具体参考如下：表3 目的端作业配置参数名参数值目的连接名称选择1.b已创建的DLI数据源连接。资源队列选择已创建的DLI SQL类型的队列。数据库名称选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名，即为“testdb”。表名选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名，即为“tablecss”。导入前清空数据选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。详细的参数配置可以参考：CDM配置DLI目的端参数。单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。如果字段映射顺序不匹配，可通过拖拽字段调整。如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容，详细请参见字段转换。图6 字段映射单击“下一步”配置任务参数，一般情况下全部保持默认即可。该步骤用户可以配置如下可选功能：作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。图7 迁移作业进度和结果查询

数据湖探索 DLI 迁移外部数据源数据至DLI

云服务器内容精选

数据湖探索 DLI

7*24

备案

专业服务

退订

建议反馈

售前咨询热线