搜索_华为云

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？缺少pymysql模块，可以查看是否有对应的egg包，如果没有，在“程序包管理”页面上传pyFile。具体步骤参考如下：将egg包上传到指定的OBS桶路径下。登录DLI管理控制台，单击“数据管理

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

自定义镜像中，以此改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。用户使用自定义镜像功能需要具备Docker相关的基础知识。使用限制创建自定义镜像必须使用DLI提供的基础镜像。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
使用Notebook实例提交DLI作业 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块，提供在线的开发和调试能力，用于编写和调测模型训练代码。完成DLI对接Notebook实例后，您可以基于Notebook提供的Web交互的开发环境同时完成代码的编写与作业的开

 帮助中心 > 数据湖探索 DLI > 用户指南
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

即开即用，Serverless架构。需要较强的技术能力进行搭建、配置、运维。高可用具有跨AZ容灾能力。无高易用学习成本学习成本低，包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。学习成本高，需要了解上百个调优参数。支持数据源云上：OBS、RDS、DWS、CSS、MongoDB、Redis。

帮助中心 > 数据湖探索 DLI > 产品介绍
对象存储OBS结果表 - 数据湖探索 DLI

服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

执行Flink或Spark作业请选择通用队列。 _ 执行引擎 SQL队列可以选择队列引擎为Spark或者HetuEngine。 _ 企业项目选择对应的企业项目。 default 单击“下一步”，配置队列的扩缩容策略。单击“新增”，可以添加不同优先级、时间段、“最小CU”和“最大CU”扩缩容策略。

帮助中心 > 数据湖探索 DLI > 快速入门
DLI作业开发流程 - 数据湖探索 DLI

例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。 DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型，可以在运行时定义数据结构，不需要事先定义元数据。

帮助中心 > 数据湖探索 DLI > 用户指南
FileSystem结果表 - 数据湖探索 DLI

服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
FileSytem结果表 - 数据湖探索 DLI

成的目录创建非DLI表，通过DLI SQL进行下一步处理分析，并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。语法格式 1 2 3 4 5 6 7 create table filesystemSink ( attr_name

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

对Spark组件不感知，仅仅可以使用该服务，且接口为封装式接口。 DLI的这种模式减轻了运维负担，可以更专注于数据处理和分析任务本身。具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上，用户可以根据实际需求调整及优化Spark服务，支持各种接口调用。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
Flink作业高可靠推荐配置指导（异常自动重启） - 数据湖探索 DLI

果该桶未授权，需要单击“立即授权”进行授权。配置该参数，可以在作业异常失败后，将作业日志保存到用户的OBS桶下，方便用户定位故障原因。图3 保存作业日志勾选“作业异常告警”，选择1中创建的“SMN主题”。配置该参数，可以在作业异常情况下，向用户指定邮箱或者手机发送消息通知，方便客户及时感知异常。

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发
Spark作业使用咨询 - 数据湖探索 DLI

Spark作业使用咨询 DLI Spark作业是否支持定时周期任务作业 DLI Spark不支持作业调度，用户可以通过其他服务，例如数据湖管理治理中心DataArts Studio服务进行调度，或者通过API/SDK等方式对作业进行自定义调度。使用DataArts Studi

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。设置spark

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
创建DLI程序包 - 数据湖探索 DLI

说明：标签的键的最大长度为128个字符，标签的键可以包含任意语种字母、数字、空格和_ . : +-@ ,但首尾不能含有空格，不能以_sys_开头。标签值：在输入框中输入标签值。说明：标签值的最大长度为255个字符，标签的值可以包含任意语种字母、数字、空格和_ . : +-@

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作 > 管理Jar作业程序包
成长地图 - 数据湖探索 DLI
成长地图 - 数据湖探索 DLI

DLI服务目前支持：SQL作业、Spark作业和Flink作业。您可以根据业务类型以及数据量大小灵活选择DLI的计费方式。价格说明计费说明计费详情和样例 04 使用您可以详细了解DLI管理控制台的功能，常用SQL语法。除此之外，还可以实时查看监控指标及审计日志，以便及时了解DLI的健康状态。

帮助中心 > 数据湖探索 DLI > 成长地图
Upsert Kafka结果表 - 数据湖探索 DLI

Kafka sink会保证至少一次将数据插入Kafka topic。这意味着，Flink可以将具有相同key的重复记录写入Kafka topic。因此，upsert-kafka 连接器可以实现幂等写入。语法格式 1 2 3 4 5 6 7 8 9 10 11

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
从MySQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

12版本。场景描述 CDC是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库的增量变动记录，同步到一个或多个数据目的中。CDC在数据同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。本示例通过创建MySQL

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发
DWS维表 - 数据湖探索 DLI
DWS维表 - 数据湖探索 DLI

》中“创建集群”章节。请确保已创建DWS数据库表。该场景作业需要运行在DLI的独享队列上，因此要与DWS集群建立增强型跨源连接，且用户可以根据实际所需设置相应安全组规则。如何建立增强型跨源连接，请参考《数据湖探索用户指南》中增强型跨源连接章节。如何设置安全组规则，请参见《虚拟私有云用户指南》中“安全组”章节。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建维表
从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

12版本。场景描述 CDC是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库的增量变动记录，同步到一个或多个数据目的中。CDC在数据同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。本示例通过创建PostgreSQL

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发

总条数： 744

上一页
1
2
3
4
5
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

DLI作业开发流程 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

DLI中的Spark组件与MRS中的Spark组件有什么区别？ - 数据湖探索 DLI

Flink作业高可靠推荐配置指导（异常自动重启） - 数据湖探索 DLI

Spark作业使用咨询 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

创建DLI程序包 - 数据湖探索 DLI

成长地图 - 数据湖探索 DLI

Upsert Kafka结果表 - 数据湖探索 DLI

从MySQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

DWS维表 - 数据湖探索 DLI

从PostgreSQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线