搜索_华为云

DLI作业开发流程 - 数据湖探索 DLI

您还可以通过自定义镜像增强DLI的计算环境，通过下载DLI提供的基础镜像再按需制作自定义镜像，将作业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，可以改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。例如，在自定义镜像中加入机器

 帮助中心 > 数据湖探索 DLI > 用户指南
查询Spark作业日志 - 数据湖探索 DLI

Spark日志分割规则：按大小分割：默认情况下，每个日志文件最大为128MB。按时间分割：每过一小时自动创建新的日志文件。前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
MRS配置 - 数据湖探索 DLI
MRS配置 - 数据湖探索 DLI

用户”，选择新建用户，选择“更多 > 下载认证凭据”，保存后解压得到用户的keytab文件与krb5.conf文件。创建MRS HBase表创建DLI表关联MRS HBase表之前确保HBase的表是存在的。以样例代码为例，具体的流程是：远程登录ECS，通过hbase shell命令查看表信息。其中，“hbtest”是要查询的表名。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
Kafka结果表 - 数据湖探索 DLI
Kafka结果表 - 数据湖探索 DLI

> 用户管理，单击用户名后的”更多 > 下载认证凭据”。根据用户凭据生成相应的truststore.jks文件，并将用户凭据以及truststore.jks文件传入OBS中。具体方式请参考客户端SSL加密功能使用说明。若运行作业提示“Message stream modified

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
查询SQL作业日志 - 数据湖探索 DLI

前提条件配置前，请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统，并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，提供毫秒级别访问时延，以及TB/s级

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
Hudi数据表Archive规范 - 数据湖探索 DLI

Archive（归档）是为了减轻Hudi读写元数据的压力，所有的元数据都存放在这个路径：Hudi表根目录/.hoodie目录，如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。规则 Hudi表必须执行Archive。对于Hudi的MOR类型和COW类型的表，都需要开启Archive。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
API语法说明 - 数据湖探索 DLI
API语法说明 - 数据湖探索 DLI

该操作不需要通过索引去查询具体更新的文件分区，因此它的速度比upsert快。当不包含更新数据时建议使用该操作，如果存在更新数据使用该操作会出现重复数据。 bulk_insert：该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表，该操作性能是最高的，但是无法控制小文件，而upser

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > Spark datasource API语法参考
提交SQL作业（推荐） - 数据湖探索 DLI

当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表，和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark

帮助中心 > 数据湖探索 DLI > API参考 > SQL作业相关API
字符码不一致导致数据乱码怎么办？ - 数据湖探索 DLI

DLI服务只支持UTF-8文本格式，因此在执行创建表和导入操作时，用户的数据需要以UTF-8编码。在将数据导入DLI之前，确保源数据文件（如CSV、JSON等）是以UTF-8编码保存的。如果数据源不是UTF-8编码，请在导入前提前转换为UTF-8编码。父主题： DLI数据库和表类

 帮助中心 > 数据湖探索 DLI > 常见问题 > DLI数据库和表类
复杂数据类型 - 数据湖探索 DLI

使用限制创建含有复杂数据类型字段的表时，该表存储格式不支持CSV（txt）。如果表中含有复杂数据类型字段时，该表不支持CSV（txt）格式的文件数据导入。 MAP数据类型建表必须指定schema，且不支持date、short、timestamp数据类型。对于JSON格式OBS表，MAP的键类型只支持STRING类型。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据类型
Hudi表分区设计规范 - 数据湖探索 DLI

是全表读取，或者按照对应业务ID过滤。基于以上考虑，维度表采用天分区会导致文件数过多，而且是全表读取，会导致所需要的文件读取Task过多，采用大颗粒度的日期分区，例如年分区，可以有效降低分区个数和文件数量；对于增量不是很大的维度表，也可以采用非分区表。如果维度表的总数据量很大或

 帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表设计规范
作业相关 - 数据湖探索 DLI
作业相关 - 数据湖探索 DLI

可过options参数设置，例如：csv的分隔符，转义符等。当OBS桶目录下有文件夹和文件同名时，加载数据会优先指向该路径下的文件而非文件夹。建议创建OBS对象时，在同一级中不要出现同名的文件和文件夹。导出数据 DLI提供导出数据的接口。您可以使用该接口将DLI表中的数据导出到OBS中。示例代码如下：

帮助中心 > 数据湖探索 DLI > SDK参考 > Python SDK > SQL作业相关
DLI数据库和表类 - 数据湖探索 DLI

字符码不一致导致数据乱码怎么办？删除表后再重新创建同名的表，需要对操作该表的用户和项目重新赋权吗？ DLI分区内表导入的文件不包含分区列的数据，导致数据导入完成后查询表数据失败怎么办？创建OBS外表，由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办？ join表时没有添加on条件，造成笛卡尔积查

 帮助中心 > 数据湖探索 DLI > 常见问题
DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
Avro Format - 数据湖探索 DLI
Avro Format - 数据湖探索 DLI

format 是（none） String 指定使用格式，这里应该是'avro'。 avro.codec 否（none） String 仅用于文件系统，avro 压缩编解码器。默认不压缩。目前支持：deflate、snappy、bzip2、xz。数据类型映射目前，Avro schema

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > Format
创建消息通知主题 - 数据湖探索 DLI

如短信或者邮件等）进行订阅。订阅成功后，如果作业失败，则系统将会自动发送消息到您指定的订阅终端。如果作业提交1分钟内立即失败，通常不会触发消息通知。如果作业提交1分钟后失败，则系统将会自动发送消息到您指定的订阅终端。操作步骤在“资源管理 > 队列管理”页面，单击左上角“创建消息通知主题”。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理队列
DWS结果表 - 数据湖探索 DLI
DWS结果表 - 数据湖探索 DLI

OBS桶”，根据作业运行的日期，找到对应日志的文件夹。进入对应日期的文件夹后，找到名字中包含“taskmanager”或“jobmanager”的文件夹进入，下载获取taskmanager.out和jobmanager.out文件查看结果日志。验证跨源是否正确绑定且安全组规则已对该队列开放。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建结果表
Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

新成功的Checkpoint文件恢复内部状态和消费位点，保证数据不丢失及聚合算子等内部状态的精确一致语义。同时，为了保证数据不重复，建议使用带主键数据库或者文件系统作为目标数据源，否则下游处理业务需要加上去重逻辑（最新成功Checkpoint记录位点到异常时间段内的数据会重复消费）。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink作业性能调优类
DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

committer小文件写性能提升对象存储服务（OBS）在处理小文件写入时的性能，提高数据传输效率。动态Executor shuffle数据优化提升资源扩缩容的稳定性，当shuffle文件不需要时清理Executor。支持配置小文件合并使用SQL过程中，生成的小文件过多时，会导

 帮助中心 > 数据湖探索 DLI > 服务公告 > 产品公告
典型场景示例：迁移Elasticsearch数据至DLI - 数据湖探索 DLI

自定义CSS数据源名称。例如当前配置为“source_css”。 Elasticsearch服务器列表单击输入框旁边的“选择”按钮，选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。安全模式认证如果所需连接的CSS集群在创建时开启了“安全模式”，该参数需设置为“是”，否则设置为“否”。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI

总条数： 492

上一页
1
...
9
10
11
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

DLI作业开发流程 - 数据湖探索 DLI

查询Spark作业日志 - 数据湖探索 DLI

MRS配置 - 数据湖探索 DLI

Kafka结果表 - 数据湖探索 DLI

查询SQL作业日志 - 数据湖探索 DLI

Hudi数据表Archive规范 - 数据湖探索 DLI

API语法说明 - 数据湖探索 DLI

提交SQL作业（推荐） - 数据湖探索 DLI

字符码不一致导致数据乱码怎么办？ - 数据湖探索 DLI

复杂数据类型 - 数据湖探索 DLI

Hudi表分区设计规范 - 数据湖探索 DLI

作业相关 - 数据湖探索 DLI

DLI数据库和表类 - 数据湖探索 DLI

DLI Spark 2.3.2版本停止服务（EOS）公告 - 数据湖探索 DLI

Avro Format - 数据湖探索 DLI

创建消息通知主题 - 数据湖探索 DLI

DWS结果表 - 数据湖探索 DLI

Flink作业重启后，如何保证不丢失数据？ - 数据湖探索 DLI

DLI Spark 3.1.1版本停止服务（EOS）公告 - 数据湖探索 DLI

典型场景示例：迁移Elasticsearch数据至DLI - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线