搜索_华为云

CLEAN - 数据湖探索 DLI
CLEAN - 数据湖探索 DLI

CLEAN 命令功能用于根据配置对Timeline上的Instant进行clean，删除老旧的历史版本文件，以减少hudi表的数据存储及读写压力。命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi DML语法说明
关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI

'obs://....') using json：指定使用 JSON 格式。 options：用于设置表的选项。 path：指定OBS中JSON文件的路径。父主题： SQL作业开发类

 帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

配分区。展示的信息将包括表的基本信息和相关的文件系统信息，其中文件系统信息包括总文件数、总文件大小、最大文件长度、最小文件长度、最后访问时间以及最后更新时间。如果指定了分区，将给出指定分区的文件系统信息，而不是分区所在表的文件系统信息。参数说明 IN | FROM schema_name

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
Hive源表 - 数据湖探索 DLI
Hive源表 - 数据湖探索 DLI

partition-name。 create-time 比较分区/文件创建时间，这不是 Hive metaStore 中的分区创建时间，而是文件系统中的文件夹/文件修改时间，如果分区文件夹以某种方式更新，例如将新文件添加到文件夹中，可能会影响数据的使用方式。 partition-time

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hive
使用DLI分析车联网场景驾驶行为数据 - 数据湖探索 DLI

dli-demo。OBS Browser+提供强大的拖拽上传功能，您可以将本地的一个或多个文件或者文件夹拖拽到对象存储的对象列表或者并行文件系统的对象列表中；同时您也可以将文件或文件夹拖拽到指定的目录上，这样可以上传到指定的目录中。单击Best_Practice_01.zip获

 帮助中心 > 数据湖探索 DLI > 最佳实践
Flink Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

flink.hadoop.fs.dew.endpoint 是无 String 指定要使用的DEW服务所在的endpoint信息。获取地区和终端节点。配置示例：flink.hadoop.fs.dew.endpoint=kms.cn-xxxx.myhuaweicloud.com flink

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink作业委托场景开发指导
查询Spark作业日志 - 数据湖探索 DLI

Spark日志分割规则：按大小分割：默认情况下，每个日志文件最大为128MB。按时间分割：每过一小时自动创建新的日志文件。前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
更新跨源认证（废弃） - 数据湖探索 DLI

用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否

 帮助中心 > 数据湖探索 DLI > API参考 > 历史API > 跨源认证相关API（废弃）
如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

（import moduleA），那么其压缩包要求满足如下结构：图2 压缩包结构要求即在压缩包内有一层以模块名命名的文件夹，然后才是对应类的Python文件，通常下载下来的Python库可能不满足这个要求，因此需要重新压缩。同时对压缩包的名称没有要求，所以建议可以把多个模块的

 帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Spark 2.4.5版本说明 - 数据湖探索 DLI

5。表1 Spark 2.4.5版本优势特性说明支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导致作业执行时间过长，且查询对应表时耗时增大，建议对小文件进行合并。参考如何合并小文件完成合并小文件。支持修改非分区表或分区表的列注释修改非分区表或分区表的列注释。

帮助中心 > 数据湖探索 DLI > 服务公告 > 版本支持公告
导入Flink作业 - 数据湖探索 DLI
导入Flink作业 - 数据湖探索 DLI

参数名称是否必选参数类型说明 zip_file 是 String 从OBS上导入的作业zip文件路径，支持填写文件夹，导入文件夹下的所有zip文件。说明：文件夹中只能包含zip文件。 is_cover 否 Boolean 如果导入的作业与服务已有的作业同名，是否覆盖服务中已有的作业。

帮助中心 > 数据湖探索 DLI > API参考 > Flink作业相关API
查询SQL作业日志 - 数据湖探索 DLI

前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级别

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

file_num 指定目录的文件数量 storage_size 该目录的Size（bytes） storage_size(unit) 该目录的Size（KB） storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间，即它考虑了为集群设置的复制因子

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi SQL语法参考 > Hudi CALL COMMAND语法说明
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

如何设置安全组规则，请参见《虚拟私有云用户指南》中“安全组”章节。若使用MRS HBase，请在增强型跨源的主机信息中添加MRS集群所有节点的主机IP信息。详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 Flink跨源开发场景中直接配置跨源认证信息存在密码

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
Hbase源表 - 数据湖探索 DLI
Hbase源表 - 数据湖探索 DLI

如何设置安全组规则，请参见《虚拟私有云用户指南》中“安全组”章节。如果使用MRS HBase，请在增强型跨源的主机信息中添加MRS集群所有节点的主机ip信息。详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。注意事项创建Flink OpenSource SQ

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表 > Hbase
Hudi数据表Archive规范 - 数据湖探索 DLI

Archive（归档）是为了减轻Hudi读写元数据的压力，所有的元数据都存放在这个路径：Hudi表根目录/.hoodie目录，如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。规则 Hudi表必须执行Archive。对于Hudi的MOR类型和COW类型的表，都需要开启Archive。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
API语法说明 - 数据湖探索 DLI
API语法说明 - 数据湖探索 DLI

该操作不需要通过索引去查询具体更新的文件分区，因此它的速度比upsert快。当不包含更新数据时建议使用该操作，如果存在更新数据使用该操作会出现重复数据。 bulk_insert：该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表，该操作性能是最高的，但是无法控制小文件，而upser

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Spark datasource API语法参考
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

则停止存储数据，以batch.size.entries为准，提交该批次的数据。 es.nodes.wan.only 是否仅通过域名访问es节点，默认为false。使用经典型跨源的连接地址作为es.nodes时，该参数需要配置为true；使用css服务提供的原始内网IP地址作为es

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接CSS
查询队列详情 - 数据湖探索 DLI

2：表示按照包年包月收费。 resource_id 否 String 队列的资源ID。 resource_mode 否 Integer 资源模式。 0：共享队列 1：专属队列 enterprise_project_id 否 String 企业项目ID。 "0”表示default，即默认的企业项目。

帮助中心 > 数据湖探索 DLI > API参考 > 队列相关API（推荐）
为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ Spark jar 作业一直处于“提交中”可能是队列剩余的CU量不足导致作业无法提交。查看队列的的剩余步骤如下：查看队列CU使用量。点击“云监控服务 > 云服务监控 > 数据探索湖 > 队列监控 > 队列CU使用量” 。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类

总条数： 338

上一页
1
...
7
8
9
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

CLEAN - 数据湖探索 DLI

关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI

SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

Hive源表 - 数据湖探索 DLI

使用DLI分析车联网场景驾驶行为数据 - 数据湖探索 DLI

Flink Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

更新跨源认证（废弃） - 数据湖探索 DLI

如何在DLI中运行复杂PySpark程序？ - 数据湖探索 DLI

Spark 2.4.5版本说明 - 数据湖探索 DLI

导入Flink作业 - 数据湖探索 DLI

查询SQL作业日志 - 数据湖探索 DLI

SHOW_FS_PATH_DETAIL - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Hbase源表 - 数据湖探索 DLI

Hudi数据表Archive规范 - 数据湖探索 DLI

API语法说明 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

查询队列详情 - 数据湖探索 DLI

为什么Spark jar 作业一直处于“提交中”？ - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线