搜索_华为云

SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

SQL作业存在join小表操作时，会触发自动广播所有executor，使得join快速完成。但同时该操作会增加executor的内存消耗，如果executor内存不够时，导致作业运行失败。解决措施排查执行的SQL中是否有使用“/*+ BROADCAST(u) */”强制做broadcastjoin。如果有，则需要去掉该标识。

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

I SQL 2003。存算分离 DLI解耦计算和存储负载，存算分离架构，存储资源和计算资源按需灵活配置，提高了资源利用率，降低了成本。企业级多租户支持计算资源按租户隔离，数据权限控制到队列、作业，帮助企业实现部门间的数据共享和权限管理。 Serverless DLI DLI完全兼容Apache

帮助中心 > 数据湖探索 DLI > 产品介绍
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，以此改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。用户使用自定义镜像功能需要具备Docker相关的基础知识。

帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
如何申请扩大配额 - 数据湖探索 DLI

如何申请扩大配额如何申请扩大配额？登录管理控制台。在页面右上角，选择“资源 > 我的配额”。系统进入“服务配额”页面。图1 我的配额单击“申请扩大配额”。在“新建工单”页面，根据您的需求，填写相关参数。其中，“问题描述”项请填写需要调整的内容和申请原因。填写完毕后，勾选协议并单击“提交”。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI资源配额类
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

DLI允许用户提交编译为Jar包的Spark作业，Jar包中包含了Jar作业执行所需的代码和依赖信息，用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前，将程序包上传至OBS，并将程序包与数据和作业参数一起提交以运行作业。本例介绍通过DLI控制台提交Jar作业

 帮助中心 > 数据湖探索 DLI > 快速入门
返回结果 - 数据湖探索 DLI
返回结果 - 数据湖探索 DLI

返回结果状态码请求发送以后，您会收到响应，包含状态码、响应消息头和消息体。状态码是一组从1xx到5xx的数字代码，状态码表示了请求响应的状态，完整的状态码列表请参见状态码。对于获取用户Token接口，如果调用后返回状态码为“201”，则表示请求成功。响应消息头对应请求

 帮助中心 > 数据湖探索 DLI > API参考 > 如何调用API
构造请求 - 数据湖探索 DLI
构造请求 - 数据湖探索 DLI

本章节介绍REST API请求的组成，并以调用IAM服务的获取用户Token来说明如何调用API，该API获取用户的Token，Token可以用于调用其他API时鉴权。您还可以通过这个视频教程了解如何构造请求调用API：https://bbs.huaweicloud.com/videos/102987

帮助中心 > 数据湖探索 DLI > API参考 > 如何调用API
使用Notebook实例提交DLI作业 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块，提供在线的开发和调试能力，用于编写和调测模型训练代码。完成DLI对接Notebook实例后，您可以基于Notebook提供的Web交互的开发环境同时完成代

 帮助中心 > 数据湖探索 DLI > 用户指南
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
SQL作业运行慢如何定位 - 数据湖探索 DLI

对join连接条件进行group by 和count，统计每个连接条件的key值的数量。示例如下： lefttbl表和righttbl表进行join关联，其中lefttbl表的num为连接条件的key值。则可以对lefttbl.num进行group by和count统计。 SELECT *

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
认证鉴权 - 数据湖探索 DLI
认证鉴权 - 数据湖探索 DLI

/SK对请求进行签名，也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。签名SDK只提供签名功能，与服务提供的SDK不同，使用时请注意。父主题：如何调用API

帮助中心 > 数据湖探索 DLI > API参考 > 如何调用API
DLI SDK功能矩阵 - 数据湖探索 DLI

DLI SDK功能矩阵 SDK开发指南指导您如何安装和配置开发环境、如何通过调用DLI SDK提供的接口函数进行二次开发。 Java、Python SDK功能矩阵请参见表1 表1 SDK功能矩阵语言功能内容 Java OBS授权介绍将OBS桶的操作权限授权给DLI的Java

帮助中心 > 数据湖探索 DLI > SDK参考 > DLI SDK
如何获取AK/SK？ - 数据湖探索 DLI

如何获取AK/SK？访问密钥即AK/SK（Access Key ID/Secret Access Key），表示一组密钥对，用于验证调用API发起请求的访问者身份，与密码的功能相似。用户通过调用API接口进行云资源管理（如创建集群）时，需要使用成对的AK/SK进行加密签名，确保

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI API类
Upsert Kafka结果表 - 数据湖探索 DLI

该场景作业需要运行在DLI的独享队列上，因此要与Kafka集群建立增强型跨源连接，且用户可以根据实际所需设置相应安全组规则。如何建立增强型跨源连接，请参考《数据湖探索用户指南》中增强型跨源连接章节。如何设置安全组规则，请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨源

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
如何合并小文件 - 数据湖探索 DLI

如何合并小文件使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。推荐使用临时表进行数据中转自读自写在突发异常场景下存在数据丢失的风险执行SQL： INSERT OVERWRITE TABLE tablename select

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
如何获取项目ID？ - 数据湖探索 DLI

如何获取项目ID？项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理（如创建集群）时，需要提供项目ID。查看项目ID步骤如下：注册并登录华为云管理控制台。将鼠标移动到右上角用户名上，在下拉列表中单击“我的凭证”。在“我的凭证”页面的项目列表中查看项目ID。

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI API类
如何调用API - 数据湖探索 DLI
如何调用API - 数据湖探索 DLI

如何调用API 构造请求认证鉴权返回结果

 帮助中心 > 数据湖探索 DLI > API参考
逻辑运算符 - 数据湖探索 DLI
逻辑运算符 - 数据湖探索 DLI

OR 两个值其中一个为true，则为true a OR b NOT 值为false，结果则为true NOT a 以下真值表反映了AND和OR如何处理NULL值： a b a AND b a OR b TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符
DLI作业开发流程 - 数据湖探索 DLI

可通过交互式会话（session）和批处理（batch）方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业，简化了资源管理和作业调度。支持多种数据源和格式，提供了丰富的数据处理能力，包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。适用于大规模数据处理和分析，如机器学

 帮助中心 > 数据湖探索 DLI > 用户指南

总条数： 213

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中 - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

如何申请扩大配额 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

返回结果 - 数据湖探索 DLI

构造请求 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

认证鉴权 - 数据湖探索 DLI

DLI SDK功能矩阵 - 数据湖探索 DLI

如何获取AK/SK？ - 数据湖探索 DLI

Upsert Kafka结果表 - 数据湖探索 DLI

如何合并小文件 - 数据湖探索 DLI

如何获取项目ID？ - 数据湖探索 DLI

如何调用API - 数据湖探索 DLI

逻辑运算符 - 数据湖探索 DLI

DLI作业开发流程 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线