搜索_华为云

SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

匹配分区。展示的信息将包括表的基本信息和相关的文件系统信息，其中文件系统信息包括总文件数、总文件大小、最大文件长度、最小文件长度、最后访问时间以及最后更新时间。如果指定了分区，将给出指定分区的文件系统信息，而不是分区所在表的文件系统信息。参数说明 IN | FROM schema_name

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
Spark SQL常用配置项说明 - 数据湖探索 DLI

批作业SQL语法的常用配置项。表1 常用配置项名称默认值描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负，则没有限制。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考
增强型跨源连接概述 - 数据湖探索 DLI

使用DLI增强型跨源时，弹性资源池/队列的网段与数据源网段不能重合。访问跨源表需要使用已经创建跨源连接的队列。跨源表不支持Preview预览功能。检测连通性要求检测跨源连接的连通性时对IP约束限制如下： IP必须为合法的IP地址，用“.”分隔的4个十进制数，范围是0-255。测试时IP地址后

 帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 配置DLI读写外部数据源数据 > 配置DLI与数据源网络连通（增强型跨源连接）
下载并安装JDBC驱动包 - 数据湖探索 DLI

”和“短息验证码”。单击“确定”，下载证书。下载成功后，在credentials文件中即可获取AK和SK信息。认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放, 使用时解密, 确保安全。获取Token 当您使用Token

帮助中心 > 数据湖探索 DLI > 开发指南 > 使用客户端工具连接DLI > 使用JDBC提交SQL作业
TRUNCATE TABLE - 数据湖探索 DLI
TRUNCATE TABLE - 数据湖探索 DLI

TABLE table_name 描述从表或分区中移除所有行。当表属性“auto.purge”采用默认值“false”时，被删除的数据行将保存到文件系统的回收站，否则，当“auto.purge”设置为“true”时，数据行将被直接删除。限制目标表必须是管控表（表属性external=false），否则执行语句将报错。

帮助中心 > 数据湖探索 DLI > HetuEngine SQL语法参考 > HetuEngine SQL语法 > DDL 语法
开启Flink作业动态扩缩容 - 数据湖探索 DLI

默认值为false。 flink.dli.job.scale.interval 30 该配置表示检测当前作业是否需要动态扩缩的时间周期，其单位为分钟，默认值为30。例如30表示每隔30分钟进行一次检测，判断是否需要对作业使用资源量进行扩缩。注意：只有当用户开启动态扩缩时，该配置才有意义。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Flink作业 > 管理Flink作业
使用Flink Jar写入数据到OBS开发指南 - 数据湖探索 DLI

已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 Maven工程的pom.xml文件配置请参考JAVA样例代码（Flink 1.12）中“pom文件配置”说明。确保本地编译环境可以正常访问公网。约束与限制需要在DLI控制台下“全局配置 > 服务授权”开启Tenant

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南
SQL作业运行慢如何定位 - 数据湖探索 DLI

container_xxx_000001归档日志文件夹示例 Spark Jar作业： Spark Jar作业的归档日志文件夹以“batch”开头。图4 Spark Jar作业归档日志文件夹名示例进入归档日志文件目录，在归档日志文件目录下，下载“gc.log.*”日志。打开已下载的“gc.log.*”日志，搜索“Full

帮助中心 > 数据湖探索 DLI > 常见问题 > SQL作业类 > SQL作业开发类
Hudi表索引设计规范 - 数据湖探索 DLI

数据存储文件生成索引信息。用Flink状态索引，Flink写入后，不支持Spark继续写入。 Flink在写Hudi的MOR表只会生成log文件，后续通过compaction操作，将log文件转为parquet文件。Spark在更新Hudi表时严重依赖parquet文件是否存在

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
Hudi数据表Archive规范 - 数据湖探索 DLI

Archive（归档）是为了减轻Hudi读写元数据的压力，所有的元数据都存放在这个路径：Hudi表根目录/.hoodie目录，如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。规则 Hudi表必须执行Archive。对于Hudi的MOR类型和COW类型的表，都需要开启Archive。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
API语法说明 - 数据湖探索 DLI
API语法说明 - 数据湖探索 DLI

该操作不需要通过索引去查询具体更新的文件分区，因此它的速度比upsert快。当不包含更新数据时建议使用该操作，如果存在更新数据使用该操作会出现重复数据。 bulk_insert：该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表，该操作性能是最高的，但是无法控制小文件，而upser

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Spark datasource API语法参考
OBS表压缩率较高怎么办？ - 数据湖探索 DLI

OBS表压缩率较高怎么办？当您在提交导入数据到DLI表的作业时，如果遇到Parquet/Orc格式的OBS表对应的文件压缩率较高，超过了5倍的压缩率，您可以通过调整配置来优化作业的性能。具体方法：在submit-job请求体conf字段中配置“dli.sql.files.ma

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
通用队列操作OBS表如何设置AK/SK - 数据湖探索 DLI

建议使用临时AK/SK，获取方式可参见统一身份认证服务_获取临时AK/SK。认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。表1 DLI获取访问凭据相关开发指南类型操作指导说明 Flink作业场景 Flink

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
Hudi数据表Compaction规范 - 数据湖探索 DLI

阻塞Clean，如果没有Compaction操作来产生新版本的Parquet文件，那旧版本的文件就不能被Clean清理，增加存储压力。提交Spark jar作业时，CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并，需要消耗较高

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
MRS配置 - 数据湖探索 DLI
MRS配置 - 数据湖探索 DLI

指南》。对接MRS HBase需要在DLI队列的host文件中添加MRS集群节点的/etc/hosts信息。详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。开启Kerberos认证时的相关配置文件参考《从零开始使用Kerberos认证集群》中的“创建安全

 帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
导出查询结果 - 数据湖探索 DLI

参数类型说明 data_path 是 String 导出结果存储的路径（当前仅支持将数据存储在OBS上）。另外，该路径下的文件夹须不存在，如请求样例中的“path”文件夹。 compress 否 String 导出数据的压缩格式，目前支持gzip，bzip2和deflate压缩方式；默认值为none，表示不压缩。

帮助中心 > 数据湖探索 DLI > API参考 > SQL作业相关API
将OBS数据导入至DLI - 数据湖探索 DLI

径是文件将导致导入数据失败。当OBS的目录下有同名文件夹和文件时，数据导入指向该路径会优先指向文件而非文件夹。说明：路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
资源相关 - 数据湖探索 DLI
资源相关 - 数据湖探索 DLI

SDK概述下载样例代码。 kind：资源包类型，当前支持包类型分别为： jar：用户jar文件 pyfile：用户Python文件 file：用户文件 modelfile：用户AI模型文件 paths：对应资源包的OBS路径，参数构成为：{bucketName}.{obs域名}/

帮助中心 > 数据湖探索 DLI > SDK参考 > Java SDK
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

为Parquet数据。方案优势提升查询性能如果您在HDFS上拥有基于文本的数据文件或者表，而且正在使用Spark SQL对数据执行查询操作，那么推荐将文本数据文件转换为Parquet数据文件，转换需要时间，但查询性能的提升在某些情况下可能达到约30倍或更高。节省存储空间

 帮助中心 > 数据湖探索 DLI > 最佳实践
配置多版本过期数据回收站 - 数据湖探索 DLI

法可以参考使用Hive语法创建OBS表。回收站数据自动清理需要在OBS并行文件系统的桶上配置回收站数据的生命周期规则。具体步骤参考如下：在OBS服务控制台页面左侧选择“并行文件系统”，单击对应的文件系统名称。在“基础配置”下单击“生命周期规则”，创建或者编辑生命周期规则。图1

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 多版本备份恢复数据

总条数： 321

上一页
1
2
3
4
5
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SHOW TABLE/PARTITION EXTENDED - 数据湖探索 DLI

Spark SQL常用配置项说明 - 数据湖探索 DLI

增强型跨源连接概述 - 数据湖探索 DLI

下载并安装JDBC驱动包 - 数据湖探索 DLI

TRUNCATE TABLE - 数据湖探索 DLI

开启Flink作业动态扩缩容 - 数据湖探索 DLI

使用Flink Jar写入数据到OBS开发指南 - 数据湖探索 DLI

SQL作业运行慢如何定位 - 数据湖探索 DLI

Hudi表索引设计规范 - 数据湖探索 DLI

Hudi数据表Archive规范 - 数据湖探索 DLI

API语法说明 - 数据湖探索 DLI

OBS表压缩率较高怎么办？ - 数据湖探索 DLI

通用队列操作OBS表如何设置AK/SK - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

MRS配置 - 数据湖探索 DLI

导出查询结果 - 数据湖探索 DLI

将OBS数据导入至DLI - 数据湖探索 DLI

资源相关 - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

配置多版本过期数据回收站 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线