搜索_华为云

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Python程序也有依赖一些第三方库，尤其是基于PySpark的融合机器学习相关的大数据分析

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
ClickHouse结果表 - 数据湖探索 DLI

url 是 ClickHouse的url。参数格式为：jdbc:clickhouse://ClickHouseBalancer实例的IP:ClickHouseBalancer实例的http端口/数据库名 ClickHouseBalancer实例的IP地址：登录MRS管理控制台，选择“集群名称

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
lag - 数据湖探索 DLI
lag - 数据湖探索 DLI

default 是常量，默认值为NULL。当offset指定的范围越界时的缺省值，需要与expr对应的数据类型相同。如果expr非常量，则基于当前行进行求值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
row - 数据湖探索 DLI
row - 数据湖探索 DLI

partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否指定数据在一个窗口内如何排序。返回值说明返回DOUBLE类型的值。 a为NULL，则返回NULL。示例代码为便于理解函数的使用方法，本文为您提供源数据，基于源数据提供函数相关示例。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
查询增强型跨源连接 - 数据湖探索 DLI

err_msg 否 String 状态为失败时的详细报错信息。 update_time 否 Long 更新时间。表4 hosts参数说明参数名称是否必选参数类型说明 name 否 String 自定义主机名称。 ip 否 String 主机对应的IPv4地址。表5 连接状态名称含义

 帮助中心 > 数据湖探索 DLI > API参考 > 增强型跨源连接相关API
窗口关联 - 数据湖探索 DLI
窗口关联 - 数据湖探索 DLI

这几种窗口关联的语法非常相似，我们在这里只举一个 FULL OUTER JOIN 的例子。当执行窗口关联时，所有具有相同 key 和相同滚动窗口的数据会被关联在一起。这里给出一个基于 TUMBLE Window TVF 的窗口连接的例子。在下面的例子中，通过将 join 的时间区域限定为固定的

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
lead - 数据湖探索 DLI
lead - 数据湖探索 DLI

default 是常量，默认值为NULL。当offset指定的范围越界时的缺省值，需要与expr对应的数据类型相同。如果expr非常量，则基于当前行进行求值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
配置Tableau通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

为了提高Kyuubi的访问效率，建议在主机的/etc/hosts 配置Kyuubi主机IP的映射关系。执行ifconfig查看主机IP地址。图2 查看主机IP地址将该IP配置在/etc/hosts文件中。图3 在/etc/hosts文件中配置IP地址步骤2：配置ODBC连接Kyuubi

帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
last - 数据湖探索 DLI
last - 数据湖探索 DLI

expr 是待计算返回结果的表达式。 ignore_nulls 否 BOOLEAN类型，表示是否忽略NULL值。默认值为False。当参数的值为True时，返回窗口中第一条非NULL的值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

窗口去重功能描述窗口去重是一种特殊的去重，它根据指定的多个列来删除重复的行，保留每个窗口和分区键的第一个或最后一个数据。对于流式查询，与普通去重不同，窗口去重只在窗口的最后返回结果数据，不会产生中间结果。它会清除不需要的中间状态。因此，窗口去重查询在用户不需要更新结果时，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
first - 数据湖探索 DLI
first - 数据湖探索 DLI

expr 是待计算返回结果的表达式。 ignore_nulls 否 BOOLEAN类型，表示是否忽略NULL值。默认值为False。当参数的值为True时，返回窗口中第一条非NULL的值。 partition_clause 否指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 分析窗口函数
使用Livy提交Spark Jar作业 - 数据湖探索 DLI

执行curl命令通过DLI Livy工具提交Spark作业请求到DLI。 ECS_IP为当前安装DLI Livy工具所在的弹性云服务器的私有IP地址。 curl --location --request POST 'http://ECS_IP:8998/batches' \ --header 'Content-Type:

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

读取kafka中的数据，以avro格式反序列化，并输出到print中。根据kafka所在的虚拟私有云和子网创建相应的跨源，并绑定所要使用的队列。然后设置安全组，入向规则，使其对当前将要使用的队列放开，并根据kafka的地址测试队列连通性（通用队列 > 找到作业的所属队列 > 更多

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Format
配置Fine BI通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

为了提高Kyuubi的访问效率，建议在主机的/etc/hosts 配置Kyuubi主机IP的映射关系。执行ifconfig查看主机IP地址。图2 查看主机IP地址将该IP配置在/etc/hosts文件中。图3 在/etc/hosts文件中配置IP地址步骤2：Fine BI安装数据连接驱动

 帮助中心 > 数据湖探索 DLI > 最佳实践 > 使用BI工具连接DLI分析数据
TABLESAMPLE - 数据湖探索 DLI
TABLESAMPLE - 数据湖探索 DLI

这两种采样方法都不允许限制结果集返回的行数。 BERNOULLI 每一行都将基于指定的采样率选择到采样表中。当使用Bernoulli方法对表进行采样时，将扫描表的所有物理块并跳过某些行（基于采样百分比和运行时计算的随机值之间的比较）。结果中包含一行的概率与任何其他行无关。这不会减少从磁盘读取采样表所需的时间。

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DQL 语法
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

读取kafka中的数据，以avro格式反序列化，并输出到print中。根据kafka所在的虚拟私有云和子网创建相应的跨源，并绑定所要使用的队列。然后设置安全组，入向规则，使其对当前将要使用的队列放开，并根据kafka的地址测试队列连通性（通用队列-->找到作业的所属队列-->更

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

的存储费用。请求费用：用户访问OBS中存储的静态网站文件时产生的请求费用。流量费用：用户使用自定义域名通过公网访问OBS时产生的流量费用。实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关，请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列

 帮助中心 > 数据湖探索 DLI > 最佳实践
配置DLI读写外部数据源数据的操作流程 - 数据湖探索 DLI

配置DLI读写外部数据源数据的操作流程 DLI执行作业需要读写外部数据源时需要具备两个条件：打通DLI和外部数据源之间的网络，确保DLI队列与数据源的网络连通。妥善保存数据源的访问凭证确保数据源认证的安全性，便于DLI安全访问数据源。本节操作介绍配置DLI读写外部数据源数据操作流程。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据
ClickHouse - 数据湖探索 DLI
ClickHouse - 数据湖探索 DLI

和Kafka集群所在的虚拟私有云和子网分别创建跨源连接，并绑定所要使用的Flink弹性资源池。设置ClickHouse和Kafka集群安全组的入向规则，使其对当前将要使用的Flink作业队列网段放通。参考测试地址连通性根据ClickHouse和Kafka的地址测试队列连通性。如

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表
创建弹性资源池 - 数据湖探索 DLI

String 标签的键。说明：标签的键的最大长度为128个字符，标签的键可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格，不能以_sys_开头。 value 是 String 标签的值。说明：标签值的最大长度为255个字符，标签的值可以包含任意语种字母、数字、空格和_

帮助中心 > 数据湖探索 DLI > API参考 > 弹性资源池相关API

总条数： 387

上一页
1
2
3
4
5
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

ClickHouse结果表 - 数据湖探索 DLI

lag - 数据湖探索 DLI

row - 数据湖探索 DLI

查询增强型跨源连接 - 数据湖探索 DLI

窗口关联 - 数据湖探索 DLI

lead - 数据湖探索 DLI

配置Tableau通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

last - 数据湖探索 DLI

窗口去重 - 数据湖探索 DLI

first - 数据湖探索 DLI

使用Livy提交Spark Jar作业 - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

配置Fine BI通过Kyuubi连接DLI进行数据查询和分析 - 数据湖探索 DLI

TABLESAMPLE - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

配置DLI读写外部数据源数据的操作流程 - 数据湖探索 DLI

ClickHouse - 数据湖探索 DLI

创建弹性资源池 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线