搜索_华为云

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？数据湖探索（DLI）服务对于PySpark是原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Py

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

在DLI使用Hudi提交Spark Jar作业提交Spark jar作业的场景需要手动配置由LakeFormation提供元数据服务的Hudi锁实现类，请参照 Hudi锁配置说明。登录DLI管理控制台，选择“作业管理 > Spark作业”，进入到Spark作业的界面。提交Hudi相关的Spark

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI中使用Hudi开发作业
创建集群（废弃） - 数据湖探索 DLI

创建集群（废弃）功能介绍该API用于创建集群，该集群将会绑定用户指定的计算资源。当前接口已废弃，不推荐使用。 URI URI格式： POST /v2.0/{project_id}/clusters 参数说明表1 URI参数名称是否必选说明 project_id 是

 帮助中心 > 数据湖探索 DLI > API参考 > 历史API > 集群相关API（废弃）
trans - 数据湖探索 DLI
trans - 数据湖探索 DLI

作为key的列类型保持不变，其余所有的列是STRING类型。拆分成的行数以个数多的数组为准，不足的补NULL。示例代码为便于理解函数的使用方法，本文为您提供源数据，基于源数据提供函数相关示例。创建表salary，并添加数据，命令示例如下： CREATE EXTERNAL TABLE

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 其他函数
创建CSS类型跨源认证 - 数据湖探索 DLI

创建CSS类型跨源认证操作场景通过在DLI控制台创建的CSS类型的跨源认证，将CSS安全集群的认证信息存储到DLI，无需在SQL作业中配置账号密码，安全访问CSS安全集群。本节操作介绍在DLI控制台创建CSS安全集群的跨源认证的操作步骤。操作须知已创建CSS安全集群，且集群满足以下条件：

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 使用DLI的跨源认证管理数据源访问凭证
Flink作业相关 - 数据湖探索 DLI
Flink作业相关 - 数据湖探索 DLI

Flink作业相关前提条件已参考Java SDK概述配置Java SDK环境。已参考初始化DLI客户端完成客户端DLIClient的初始化，参考队列相关完成队列创建等操作。新建SQL作业 DLI提供新建Flink SQL作业的接口。您可以使用该接口新建Flink SQL作业并提交到DLI，示例代码如下：

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
java样例代码 - 数据湖探索 DLI
java样例代码 - 数据湖探索 DLI

java样例代码开发说明 redis只支持增强型跨源。只能使用包年包月队列。前提条件在DLI管理控制台上已完成创建增强跨源连接，并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Redis
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据应用场景 Parquet是面向分析型业务的列式存储格式，这种格式可以加快查询速度，查询Parquet格式数据时，只检查所需要的列并对它们的值执行计算，也就是说，只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项

 帮助中心 > 数据湖探索 DLI > 最佳实践
Over聚合 - 数据湖探索 DLI
Over聚合 - 数据湖探索 DLI

少行数据。范围通过 BETWEEN 子句定义上下边界，其内的所有行都会聚合。Flink 只支持 CURRENT ROW 作为上边界。有两种方法可以定义范围：ROWS 间隔和 RANGE 间隔： RANGE 间隔 RANGE 间隔是定义在排序列值上的，在 Flink 里，排序列总是一个时间属性。下面的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
创建DWS维表 - 数据湖探索 DLI
创建DWS维表 - 数据湖探索 DLI

创建DWS维表创建DWS表用于与输入流连接。前提条件请务必确保您的账户下已创建了所需的DWS实例。语法格式 1 2 3 4 5 6 7 8 9 10 11 create table dwsSource ( attr_name attr_type

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建维表
get_json_object - 数据湖探索 DLI
get_json_object - 数据湖探索 DLI

region['id']") from json_table where id =1; 取rid的值，查询key为city1，返回7。查询方法有如下两种。 select get_json_object(json, "$['city1'].region['id']") from json_table

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 字符串函数
窗口Top-N - 数据湖探索 DLI
窗口Top-N - 数据湖探索 DLI

窗口Top-N 功能描述窗口 Top-N 是特殊的 Top-N，它返回每个分区键的每个窗口的N个最小或最大值。与普通Top-N不同，窗口Top-N只在窗口最后返回汇总的Top-N数据，不会产生中间结果。窗口 Top-N 会在窗口结束后清除不需要的中间状态。窗口 Top-N

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
Spark作业相关 - 数据湖探索 DLI
Spark作业相关 - 数据湖探索 DLI

println("list all batch jobs..."); // 通过调用DLIClient对象的listAllBatchJobs方法查询批处理作业 String queueName = "queueName"; int from = 0; int size =

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
基本概念 - 数据湖探索 DLI
基本概念 - 数据湖探索 DLI

基本概念账号用户注册华为账号并开通华为云。账号对其所拥有的资源及云服务具有完全的访问权限，可以重置用户密码、分配用户权限等。由于账号是付费主体，为了确保账号安全，建议您不要直接使用账号进行日常管理工作，而是创建用户并使用他们进行日常管理工作。用户由账号在IAM中创建的用户

 帮助中心 > 数据湖探索 DLI > API参考 > API使用前必读
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

DISTINCT 则对所有值去重后计算 VARIANCE([ ALL | DISTINCT ] expression) VAR_SAMP() 的同义方法。 RANK() 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 DENSE_RANK()

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
获取项目ID - 数据湖探索 DLI
获取项目ID - 数据湖探索 DLI

获取项目ID 操作场景在调用接口的时候，部分URL中需要填入项目ID，所以需要获取到项目ID。有如下两种获取方式：调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目信息API获取。获取项目ID的接口为“GET ht

帮助中心 > 数据湖探索 DLI > API参考 > 公共参数
计费概述 - 数据湖探索 DLI
计费概述 - 数据湖探索 DLI

计费概述数据湖探索DLI的计费由不同的计费项组成，不同的计费项有不同的计费模式，如图1所示。图1 DLI的计费组成计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器，快速计算出购买资源的参考价格。

帮助中心 > 数据湖探索 DLI > 计费说明
配置YongHong BI连接DLI进行数据查询和分析 - 数据湖探索 DLI

配置YongHong BI连接DLI进行数据查询和分析 YongHong BI是一款企业级数据分析工具。支持数据可视化、报表制作、数据分析和决策支持的功能，帮助企业洞察业务数据，提升决策效率。本节操作介绍YongHong BI连接DLI的操作步骤。操作前准备环境要求：已安装YongHong

帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
Hudi表索引设计规范 - 数据湖探索 DLI

处于单task读写可接受范围之内。如果是单个Bucket的数据量超过了该值范围，可能会有什么影响？读写任务可能会出现OOM的问题，解决方法就是提升单个task的内存占比。读写性能下降，因为单个task的处理的数据量变大，导致处理耗时变大。父主题： Hudi数据表设计规范

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 DLI Spark-submit简介 DLI Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具，该工具提供与开源Spark兼容的命令行。准备工作授权。 DLI使用统一身份认证服务（Identity

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI

总条数： 570

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

在DLI使用Hudi提交Spark Jar作业 - 数据湖探索 DLI

创建集群（废弃） - 数据湖探索 DLI

trans - 数据湖探索 DLI

创建CSS类型跨源认证 - 数据湖探索 DLI

Flink作业相关 - 数据湖探索 DLI

java样例代码 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

Over聚合 - 数据湖探索 DLI

创建DWS维表 - 数据湖探索 DLI

get_json_object - 数据湖探索 DLI

窗口Top-N - 数据湖探索 DLI

Spark作业相关 - 数据湖探索 DLI

基本概念 - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

获取项目ID - 数据湖探索 DLI

计费概述 - 数据湖探索 DLI

配置YongHong BI连接DLI进行数据查询和分析 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

使用Spark-submit提交Spark Jar作业 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线