搜索_华为云

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

的融合机器学习相关的大数据分析程序。传统上，通常是直接基于pip把Python库安装到执行机器上，对于DLI这样的Serverless化服务用户无需也感知不到底层的计算资源，那如何来保证用户可以更好的运行他的程序呢？ DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库（具体可以参考”数据湖探索

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

义镜像，将作业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，以此改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。用户使用自定义

 帮助中心 > 数据湖探索 DLI > 用户指南 > DLI常用管理操作
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

返回所有输入值之间的数字字段的样本方差 COLLECT([ ALL | DISTINCT ] expression) MULTISET 返回所有输入值的MULTISET VARIANCE([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值之间的数字字段的样本方差

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 函数 > 内置函数
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

返回所有输入值之间的数字字段的样本方差 COLLECT([ ALL | DISTINCT ] expression) MULTISET 返回所有输入值的MULTISET VARIANCE([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值之间的数字字段的样本方差

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 函数 > 内置函数
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

expression) VAR_SAMP() 的同义方法。 RANK() 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 DENSE_RANK() 返回值在一组值中的排名。结果是一加先前分配的等级值。与函数 rank 不同，dense_rank

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
使用Notebook实例提交DLI作业 - 数据湖探索 DLI

在ModelArts创建并注册自定义镜像的详细操作请参考在Notebook中通过Dockerfile从0制作自定义镜像。步骤5：创建DLI自定义委托用于访问Notebook实例参考创建DLI自定义委托权限创建DLI自定义委托用于访问Notebook实例。请确保委托中包含以下权限：ModelArts FullAccess、DLI

帮助中心 > 数据湖探索 DLI > 用户指南
对象存储OBS结果表 - 数据湖探索 DLI

据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > 对象存储OBS
聚合函数概览 - 数据湖探索 DLI

col2) DOUBLE 返回两列数值协方差。 covar_samp covar_samp(col1, col2) DOUBLE 返回两列数值样本协方差。 max max(col) DOUBLE 返回最大值。 min min(col) DOUBLE 返回最小值。 percentile

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 聚合函数
var - 数据湖探索 DLI
var - 数据湖探索 DLI

var_samp函数用于返回指定列的样本方差。命令格式 var_samp(col) 参数说明表1 参数说明参数是否必选说明 col 是数据类型为数值的列。其他类型返回NULL。返回值说明返回DOUBLE类型的值。示例代码计算所有商品库存（items）的样本方差。命令示例如下：

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 聚合函数
stddev - 数据湖探索 DLI
stddev - 数据湖探索 DLI

stddev_samp函数用于返回指定列的样本偏差。命令格式 stddev_samp(col) 参数说明表1 参数说明参数是否必选说明 col 是数据类型为数值的列。其他类型返回NULL。返回值说明返回DOUBLE类型的值。示例代码计算所有商品库存（items）的样本偏差。命令示例如下：

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 聚合函数
FileSytem结果表 - 数据湖探索 DLI

connector.partitioned-by 否分区字段，多个字段以“,”分隔示例从kafka中读取数据以parquet的格式写到obs的bucketName桶下的fileName目录中。 create table kafkaSource( attr0 string, attr1

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
covar - 数据湖探索 DLI
covar - 数据湖探索 DLI

covar_samp covar_samp函数用于返回两列数值样本协方差。命令格式 covar_samp(col1, col2) 参数说明表1 参数说明参数是否必选说明 col1 是数据类型为数值的列。其他类型返回NULL。 col2 是数据类型为数值的列。其他类型返回NULL。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 聚合函数
使用DLI提交SQL作业查询OBS数据 - 数据湖探索 DLI

使用DLI查询数据前，需要将数据文件上传至OBS中。步骤2：创建弹性资源池并添加队列创建提交作业所需的计算资源。步骤3：创建数据库 DLI元数据是SQL作业开发的基础。在执行作业前您需要根据业务场景定义数据库和表。步骤4：创建表数据库创建完成后，需要在数据库db1中基于OBS上的样本数据创建表。步骤5：查询数据

 帮助中心 > 数据湖探索 DLI > 快速入门
使用DLI提交Spark Jar作业 - 数据湖探索 DLI

单击“创建凭据”。配置凭据基本信息。分别配置AK和SK对应的凭据键值本例中第一行key对应的value为用户的AK（Access Key Id）本例中第二行key对应的value为用户的SK（Secret Access Key）图3 在DEW中配置访问凭据后续在DLI Spark jar作业编辑界面设置访问凭据的参数示例。

帮助中心 > 数据湖探索 DLI > 快速入门
FileSystem结果表 - 数据湖探索 DLI

据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
产品优势 - 数据湖探索 DLI
产品优势 - 数据湖探索 DLI

即开即用，Serverless架构。需要较强的技术能力进行搭建、配置、运维。高可用具有跨AZ容灾能力。无高易用学习成本学习成本低，包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。学习成本高，需要了解上百个调优参数。支持数据源云上：OBS、RDS、DWS、CSS、MongoDB、Redis。

帮助中心 > 数据湖探索 DLI > 产品介绍
sign - 数据湖探索 DLI
sign - 数据湖探索 DLI

sign sign函数用于返回a所对应的正负号。命令格式 sign(DOUBLE a) 参数说明表1 参数说明参数是否必选参数类型说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。参数a的格式包括浮点数格式、整数格式、字符串格式。返回值说明

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 内置函数 > 数学函数
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

看来，峰度反映了峰部的尖度。这个统计量需要与正态分布相比较。定义上峰度是样本的标准四阶中心矩（standardized 4th central moment)。随机变量的峰度计算方法为随机变量的四阶中心矩与方差平方的比值。具体计算公式为： select kurtosis(x)

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符
DLI作业开发流程 - 数据湖探索 DLI

包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。适用于大规模数据处理和分析，如机器学习训练、日志分析、大规模数据挖掘等场景。管理Jar作业的程序包 DLI允许用户提交编译为Jar包的Flink或Spark作业，Jar包中包含了Jar作业执行所需的代码和

 帮助中心 > 数据湖探索 DLI > 用户指南
数学函数和运算符 - 数据湖探索 DLI

teger。统计学函数二项分布的置信区间有多种计算公式，最常见的是["正态区间"]，但是，它只适用于样本较多的情况（np > 5 且 n(1 − p) > 5），对于小样本，它的准确性很差。于是采用威尔逊区间： z —— 正态分布，均值 + z * 标准差置信度。 z = 1

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > SQL函数和操作符

总条数： 25

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

使用自定义镜像增强作业运行环境 - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

使用Notebook实例提交DLI作业 - 数据湖探索 DLI

对象存储OBS结果表 - 数据湖探索 DLI

聚合函数概览 - 数据湖探索 DLI

var - 数据湖探索 DLI

stddev - 数据湖探索 DLI

FileSytem结果表 - 数据湖探索 DLI

covar - 数据湖探索 DLI

使用DLI提交SQL作业查询OBS数据 - 数据湖探索 DLI

使用DLI提交Spark Jar作业 - 数据湖探索 DLI

FileSystem结果表 - 数据湖探索 DLI

产品优势 - 数据湖探索 DLI

sign - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

DLI作业开发流程 - 数据湖探索 DLI

数学函数和运算符 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线