搜索_华为云

pyspark样例代码 - 数据湖探索 DLI

将写好的python代码文件上传至DLI中。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。在Spark作业编辑器中选择对应的Module模块并执行Spark作业。控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接Mongo
CSS安全集群配置 - 数据湖探索 DLI

CSS安全集群配置准备工作当前CSS服务提供的Elasticsearch 6.5.4或以上集群版本为用户增加了安全模式功能，开启安全模式后，将会为用户提供身份验证、授权以及加密等功能。DLI服务对接CSS安全集群时，需要先进行以下准备工作。选择CSS Elasticsearch

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
Flink Opensource SQL使用DEW管理访问凭据 - 数据湖探索 DLI

SQL使用DEW管理访问凭据操作场景 DLI将Flink作业的输出数据写入到Mysql或DWS时，需要在connector中设置账号、密码等属性。但是账号密码等信息属于高度敏感数据，需要做加密处理，以保障用户的数据隐私安全。数据加密服务（Data Encryption Workshop，DEW）、云凭据管理服务（Cloud

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink作业委托场景开发指导
资产识别与管理 - 数据湖探索 DLI

签将很容易帮助您对不同的应用进行使用量分析和成本核算。对DLI来说，标签用于标识购买的队列和创建数据库，对购买的DLI队列和数据库进行分类。为队列或数据库添加标签时，该队列或数据库上所有请求产生的计费话单里都会带上这些标签，您可以针对话单报表做分类筛选，进行更详细的成本分析。

帮助中心 > 数据湖探索 DLI > 产品介绍 > 安全
在Spark SQL作业中使用UDF - 数据湖探索 DLI

2019.1或其他兼容版本。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。开发流程 DLI下UDF函数开发流程参考如下：图1 开发流程表2 开发流程说明序号阶段操作界面说明 1 新建Maven工程，配置pom文件 IntelliJ IDEA

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
SQL作业如何指定表的部分字段进行表数据的插入 - 数据湖探索 DLI

SQL作业如何指定表的部分字段进行表数据的插入如果需要将数据插入到表中，但只想指定部分字段，可以使用INSERT INTO语句结合SELECT子句来实现。但是DLI目前不支持直接在INSERT INTO语句中指定部分列字段进行数据插入，您需要确保在SELECT子句中选择的字段

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
导入数据（废弃） - 数据湖探索 DLI

不配置表示动态导入整表数据，导入的数据需要包含分区列的数据；如果导入时，配置所有分区信息，则表示导入数据到指定分区，导入的数据不能包含分区列的数据；如果导入时，配置了部分分区信息，而导入的数据必须包含非指定的分区数据，不能包含指定的分区数据，否则数据导入后，非指定的数据分区字段列会存在null值等异常值。

帮助中心 > 数据湖探索 DLI > API参考 > 历史API > SQL作业相关API（废弃）
DLI Hudi开发规范 - 数据湖探索 DLI

DLI Hudi开发规范 Hudi开发规范概述 Hudi数据表设计规范 Hudi数据表管理操作规范 Spark on Hudi开发规范 Bucket调优示例

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考
Hudi表索引设计规范 - 数据湖探索 DLI

2GB的数据存储成列存Parquet文件后，大概的数据文件大小是150MB ~ 256MB左右。不同业务数据会有出入。而HDFS单个数据块一般会是128MB，这样可以有效地利用存储空间。数据读写占用的内存空间都是原始数据大小（包括空值也是会占用内存的），2GB在大数据计算过程中，处于单task读写可接受范围之内。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

REFRESH TABLE刷新表元数据功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据作业执行报错，报错信息参考如下： DLI.0002: FileNotFoundException:

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 分区相关
Hudi表分区设计规范 - 数据湖探索 DLI

度的日期分区是否采用分区表要根据表的总数据量、增量和使用方式来决定。从表的使用属性看事实表和维度表具有的特点：事实表：数据总量大，增量大，数据读取多以日期做切分，读取一定时间段的数据。维度表：总量相对小，增量小，多以更新操作为主，数据读取会是全表读取，或者按照对应业务ID过滤。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？数据湖探索（DLI）服务对于PySpark是原生支持的。对于数据分析来说Python是很自然的选择，而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序，通常会把程序打成Jar包并依赖其他一些第三方的Jar，同样的Py

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

Spark Jar 使用DEW获取访问凭证读写OBS 操作场景 DLI将Spark Jar作业并的输出数据写入到OBS时，需要配置AKSK访问OBS，为了确保AKSK数据安全，您可以通过数据加密服务（Data Encryption Workshop，DEW）、云凭据管理服务（Cloud

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
配置DLI读写外部数据源数据的操作流程 - 数据湖探索 DLI

配置DLI读写外部数据源数据的操作流程 DLI执行作业需要读写外部数据源时需要具备两个条件：打通DLI和外部数据源之间的网络，确保DLI队列与数据源的网络连通。妥善保存数据源的访问凭证确保数据源认证的安全性，便于DLI安全访问数据源。本节操作介绍配置DLI读写外部数据源数据操作流程。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据
将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

pyspark作业对接MySQL，需要创建跨源链接，打通DLI和RDS之间的网络。通过管理控制台创建跨源连接请参考《数据湖探索用户指南》。通过API创建跨源连接请参考《数据湖探索API参考》。父主题： Spark作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
数据相关 - 数据湖探索 DLI
数据相关 - 数据湖探索 DLI

数据相关导入数据插入数据清空数据

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
在DLI控制台创建数据库和表 - 数据湖探索 DLI

在DLI控制台创建数据库和表数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。数据库是一个框架，表是其实质内容。一个数据库包含一个或者多个表。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表
在Spark SQL作业中使用UDAF - 数据湖探索 DLI

019.1或其2019.1往后的版本。安装Maven 开发环境的基本配置（下载并安装 Maven）。用于项目管理，贯穿软件开发生命周期。开发流程 DLI下UDAF函数开发流程参考如下：图1 UDAF开发流程表2 开发流程说明序号阶段操作界面说明 1 新建Maven工程，配置pom文件

 帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
SQL作业开发类 - 数据湖探索 DLI

SQL作业开发类 SQL作业使用咨询如何合并小文件 DLI如何访问OBS桶中的数据创建OBS表时怎样指定OBS路径关联OBS桶中嵌套的JSON格式数据如何创建表 count函数如何进行聚合怎样将一个区域中的DLI表数据同步到另一个区域中？ SQL作业如何指定表的部分字段进行表数据的插入

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类
在Spark SQL作业中使用UDTF - 数据湖探索 DLI

用2019.1或其他兼容版本。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。开发流程 DLI下UDTF函数开发流程参考如下：图1 UDTF开发流程表2 开发流程说明序号阶段操作界面说明 1 新建Maven工程，配置pom文件 IntelliJ

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南

总条数： 1507

上一页
1
...
5
6
7
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

pyspark样例代码 - 数据湖探索 DLI

CSS安全集群配置 - 数据湖探索 DLI

Flink Opensource SQL使用DEW管理访问凭据 - 数据湖探索 DLI

资产识别与管理 - 数据湖探索 DLI

在Spark SQL作业中使用UDF - 数据湖探索 DLI

SQL作业如何指定表的部分字段进行表数据的插入 - 数据湖探索 DLI

导入数据（废弃） - 数据湖探索 DLI

DLI Hudi开发规范 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

REFRESH TABLE刷新表元数据 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

配置DLI读写外部数据源数据的操作流程 - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

数据相关 - 数据湖探索 DLI

在DLI控制台创建数据库和表 - 数据湖探索 DLI

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

SQL作业开发类 - 数据湖探索 DLI

在Spark SQL作业中使用UDTF - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线