搜索_华为云

使用DLI进行账单分析与优化 - 数据湖探索 DLI

使用DLI进行账单分析与优化应用场景本文主要介绍如何使用华为云DLI上的实际消费数据（文中涉及账户的信息已脱敏），在DLI的大数据分析平台上进行分析，找出费用优化的空间，并给出使用DLI过程中降低成本的一些优化措施。流程介绍使用DLI进行账单分析与优化的操作过程主要包括以下步骤：

帮助中心 > 数据湖探索 DLI > 最佳实践 > 数据分析
新建Flink Jar作业 - 数据湖探索 DLI

-1或大于0。默认值为“-1”，表示无限次数。 checkpoint_path 否 String 用户Jar中checkpoint的储存地址，不同作业路径需要保持不同。 tags 否 Array of Objects Flink jar作业的标签。具体请参考表3。 runtime_config

帮助中心 > 数据湖探索 DLI > API参考 > Flink作业相关API
扫描量计费 - 数据湖探索 DLI
扫描量计费 - 数据湖探索 DLI

以SQL作业为例：单击“作业管理 > SQL作业”。在作业管理控制台页面筛选使用default队列的作业。单击展开作业详情，查看作业扫描量。图1 配置费用示例计费示例价格仅供参考，实际计算请以数据湖探索价格详情中的价格为准。参考数据湖价格详情页的按数据扫描量计算计费样例。欠费影响

 帮助中心 > 数据湖探索 DLI > 计费说明
JOIN - 数据湖探索 DLI
JOIN - 数据湖探索 DLI

cross join （笛卡儿积）以致查询失败。流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置，以防止出现过多的状态。示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId

帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > Flink Opensource SQL1.12语法参考 > 数据操作语句DML
JOIN - 数据湖探索 DLI
JOIN - 数据湖探索 DLI

cross join （笛卡儿积）以致查询失败。流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置，以防止出现过多的状态。示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据操作语句DML
JOIN - 数据湖探索 DLI
JOIN - 数据湖探索 DLI

cross join （笛卡儿积）以致查询失败。流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置，以防止出现过多的状态。示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据操作语句DML
实时聚类 - 数据湖探索 DLI
实时聚类 - 数据湖探索 DLI

实时聚类聚类算法是非监督算法中非常典型的一类算法，经典的K-Means算法通过提前确定类别数目，计算数据点之间的距离来分类。对于离线静态数据集，我们可以依赖领域中知识来确定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，

帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > 历史版本（即将下线） > Flink SQL语法参考（不再演进，推荐使用Flink OpenSource SQL） > StreamingML
实时聚类 - 数据湖探索 DLI
实时聚类 - 数据湖探索 DLI

实时聚类聚类算法是非监督算法中非常典型的一类算法，经典的K-Means算法通过提前确定类别数目，计算数据点之间的距离来分类。对于离线静态数据集，我们可以依赖领域中知识来确定类别数目，运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据，数据是在不断变化和演进，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > 历史版本 > Flink SQL语法参考（不再演进，推荐使用Flink OpenSource SQL） > StreamingML
JOIN - 数据湖探索 DLI
JOIN - 数据湖探索 DLI

cross join （笛卡儿积）以致查询失败。流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置，以防止出现过多的状态。示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML
JOIN - 数据湖探索 DLI
JOIN - 数据湖探索 DLI

cross join （笛卡儿积）以致查询失败。流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置，以防止出现过多的状态。示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId

帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > Flink Opensource SQL1.10语法参考 > 数据操作语句DML
聚合函数 - 数据湖探索 DLI
聚合函数 - 数据湖探索 DLI

DISTINCT 则对所有值去重后计算 VARIANCE([ ALL | DISTINCT ] expression) VAR_SAMP() 的同义方法。 RANK() 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 DENSE_RANK()

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
比较函数 - 数据湖探索 DLI
比较函数 - 数据湖探索 DLI

和分组操作中可以被重写的操作。对于流式查询，该操作在 join 和分组操作中被重写。根据输入行的数量计算查询结果所需的状态可能会无限增长。请提供具有有效保留间隔的查询配置，以防止状态过大。 value IN (sub-query) BOOLEAN 如果 value 等于子查询结果集中的一行则返回 TRUE。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 函数 > 内置函数
标示符 - 数据湖探索 DLI
标示符 - 数据湖探索 DLI

non_equi_join_condition number partition_col_name partition_col_value partition_specs property_name property_value regex_expression result_expression select_statement

帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线）
标示符 - 数据湖探索 DLI
标示符 - 数据湖探索 DLI

output_format_classname partition_col_name partition_col_value partition_specs property_name property_value regex_expression result_expression row_format

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
更新表分区信息（只支持OBS表） - 数据湖探索 DLI

SERDEPROPERTIES：Serde属性。参数说明表1 参数描述参数描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。注意事项该命令的主要应用场景是针对分区表，如当手动在OBS上面添加分区目录时，再通过上

 帮助中心 > 数据湖探索 DLI > SQL语法参考（即将下线） > Spark SQL语法参考（即将下线） > 分区表相关
更新表分区信息（只支持OBS表） - 数据湖探索 DLI

SERDEPROPERTIES：Serde属性。参数说明表1 参数描述参数描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。注意事项该命令的主要应用场景是针对分区表，如当手动在OBS上面添加分区目录时，再通过上

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
查询作业执行进度信息 - 数据湖探索 DLI

作业的运行进度，因为没有子作业在运行，sub_job_id不展示。如果有子作业在运行中，则展示该子作业的运行进度，progress的计算方法为：子作业已经完成的task数除以子作业总的task数。此时progress表示子作业的运行进度，sub_job_id展示。 sub_jobs

帮助中心 > 数据湖探索 DLI > API参考 > SQL作业相关API
窗口去重 - 数据湖探索 DLI
窗口去重 - 数据湖探索 DLI

窗口去重功能描述窗口去重是一种特殊的去重，它根据指定的多个列来删除重复的行，保留每个窗口和分区键的第一个或最后一个数据。对于流式查询，与普通去重不同，窗口去重只在窗口的最后返回结果数据，不会产生中间结果。它会清除不需要的中间状态。因此，窗口去重查询在用户不需要更新结果时，

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > 数据操作语句DML > 窗口
功能总览 - 数据湖探索 DLI
功能总览 - 数据湖探索 DLI

DLI委托可以确保DLI在跨源分析场景中安全、有效地访问其他云服务。发布区域：全部创建DLI自定义委托 OBS 2.0支持自定义镜像 DLI支持容器部署的集群。在容器集群中，Spark作业和Flink作业相关组件都运行在容器中，通过下载DLI提供的自定义镜像，可以改变Spark作业和Fli

帮助中心 > 数据湖探索 DLI > 功能总览
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据应用场景 Parquet是面向分析型业务的列式存储格式，这种格式可以加快查询速度，查询Parquet格式数据时，只检查所需要的列并对它们的值执行计算，也就是说，只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项

 帮助中心 > 数据湖探索 DLI > 最佳实践 > 数据分析

总条数： 751

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用DLI进行账单分析与优化 - 数据湖探索 DLI

新建Flink Jar作业 - 数据湖探索 DLI

扫描量计费 - 数据湖探索 DLI

JOIN - 数据湖探索 DLI

JOIN - 数据湖探索 DLI

JOIN - 数据湖探索 DLI

实时聚类 - 数据湖探索 DLI

实时聚类 - 数据湖探索 DLI

JOIN - 数据湖探索 DLI

JOIN - 数据湖探索 DLI

聚合函数 - 数据湖探索 DLI

比较函数 - 数据湖探索 DLI

标示符 - 数据湖探索 DLI

标示符 - 数据湖探索 DLI

更新表分区信息（只支持OBS表） - 数据湖探索 DLI

更新表分区信息（只支持OBS表） - 数据湖探索 DLI

查询作业执行进度信息 - 数据湖探索 DLI

窗口去重 - 数据湖探索 DLI

功能总览 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线