搜索_华为云

Hudi数据表Archive规范 - 数据湖探索 DLI

Hudi数据表Archive规范 Archive（归档）是为了减轻Hudi读写元数据的压力，所有的元数据都存放在这个路径：Hudi表根目录/.hoodie目录，如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
Hudi数据表Compaction规范 - 数据湖探索 DLI

之前的deltacommit所对应的旧版本文件会被清理。

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Hudi数据表管理操作规范
获取Spark作业委托临时凭证用于访问其他云服务 - 数据湖探索 DLI

pom文件配置中依赖包 <dependency> <groupId>com.huaweicloud.sdk</groupId> <artifactId>huaweicloud-sdk-core</artifactId> <version>3.1.62</version

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南
将OBS数据导入至DLI - 数据湖探索 DLI

创建OBS表时指定的路径必须是文件夹，如果建表路径是文件将导致导入数据失败。当OBS的目录下有同名文件夹和文件时，数据导入指向该路径会优先指向文件而非文件夹。说明：路径同时支持文件和文件夹。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建数据库和表 > 在DLI控制台管理表资源
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

方案优势提升查询性能如果您在HDFS上拥有基于文本的数据文件或者表，而且正在使用Spark SQL对数据执行查询操作，那么推荐将文本数据文件转换为Parquet数据文件，转换需要时间，但查询性能的提升在某些情况下可能达到约30倍或更高。

帮助中心 > 数据湖探索 DLI > 最佳实践
导出查询结果 - 数据湖探索 DLI

另外，该路径下的文件夹须不存在，如请求样例中的“path”文件夹。 compress 否 String 导出数据的压缩格式，目前支持gzip，bzip2和deflate压缩方式；默认值为none，表示不压缩。

帮助中心 > 数据湖探索 DLI > API参考 > SQL作业相关API
复杂数据类型 - 数据湖探索 DLI

如果表中含有复杂数据类型字段时，该表不支持CSV（txt）格式的文件数据导入。 MAP数据类型建表必须指定schema，且不支持date、short、timestamp数据类型。对于JSON格式OBS表，MAP的键类型只支持STRING类型。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 数据类型
配置多版本过期数据回收站 - 数据湖探索 DLI

回收站数据自动清理需要在OBS并行文件系统的桶上配置回收站数据的生命周期规则。具体步骤参考如下：在OBS服务控制台页面左侧选择“并行文件系统”，单击对应的文件系统名称。在“基础配置”下单击“生命周期规则”，创建或者编辑生命周期规则。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 多版本备份恢复数据
使用DLI提交SQL作业查询OBS数据 - 数据湖探索 DLI

product_id,product_name 113,office_13 22,book_2 29,book_9 文件上传成功后，待分析的文件路径为“obs://obs1/sampledata.csv”。关于OBS管理控制台更多操作请参考《对象存储服务用户指南》。

帮助中心 > 数据湖探索 DLI > 快速入门
MRS配置 - 数据湖探索 DLI
MRS配置 - 数据湖探索 DLI

登录Manager界面，选择“系统 > 权限 > 用户”，选择新建用户，选择“更多 > 下载认证凭据”，保存后解压得到用户的keytab文件与krb5.conf文件。创建MRS HBase表创建DLI表关联MRS HBase表之前确保HBase的表是存在的。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
创建DLI表关联HBase - 数据湖探索 DLI

请确保在DLI队列host文件中添加MRS集群master节点的“/etc/hosts”信息。如何添加IP域名映射，请参见《数据湖探索用户指南》中增强型跨源连接章节。该语法不支持安全集群。

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接HBase表
将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

在报错的Spark作业编辑页面，“依赖python文件”处选择已上传的egg程序包，重新运行Spark作业。 pyspark作业对接MySQL，需要创建跨源链接，打通DLI和RDS之间的网络。通过管理控制台创建跨源连接请参考《数据湖探索用户指南》。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
在Spark SQL作业中使用UDAF - 数据湖探索 DLI

在工程路径的“src > main > java”文件夹上鼠标右键，选择“New > Package”，新建Package和类文件。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
迁移数据场景概述 - 数据湖探索 DLI

CDM支持数据库、数据仓库、文件等多种类型的数据源，通过可视化界面对数据源迁移任务进行配置，提高数据迁移和集成的效率。

帮助中心 > 数据湖探索 DLI > 用户指南 > 数据迁移与数据传输 > 迁移外部数据源数据至DLI
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

krb5conf 开启Kerberos认证后的krb5.conf文件路径，格式为'./krb5.conf'。具体详情参考开启Kerberos认证时的相关配置文件。 keytab 开启Kerberos认证后的keytab文件路径，格式为'./user.keytab'。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。构造依赖信息，创建SparkSession 导入依赖。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB
在Spark SQL作业中使用UDF - 数据湖探索 DLI

在工程路径的“src > main > java”文件夹上鼠标右键，选择“New > Package”，新建Package和类文件。

帮助中心 > 数据湖探索 DLI > 开发指南 > SQL作业开发指南
scala样例代码 - 数据湖探索 DLI
scala样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接DWS
pyspark样例代码 - 数据湖探索 DLI

krb5.conf和keytab文件获取请具体参考开启Kerberos认证时的相关配置文件操作说明。表参数详情可参考表1。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接HBase
pyspark样例代码 - 数据湖探索 DLI

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。

帮助中心 > 数据湖探索 DLI > 开发指南 > Spark Jar作业开发指南 > 使用Spark作业跨源访问数据源 > 对接OpenTSDB

总条数： 357

上一页
1
...
5
6
7
...
18
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Hudi数据表Archive规范 - 数据湖探索 DLI

Hudi数据表Compaction规范 - 数据湖探索 DLI

获取Spark作业委托临时凭证用于访问其他云服务 - 数据湖探索 DLI

将OBS数据导入至DLI - 数据湖探索 DLI

使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI

导出查询结果 - 数据湖探索 DLI

复杂数据类型 - 数据湖探索 DLI

配置多版本过期数据回收站 - 数据湖探索 DLI

使用DLI提交SQL作业查询OBS数据 - 数据湖探索 DLI

MRS配置 - 数据湖探索 DLI

创建DLI表关联HBase - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

在Spark SQL作业中使用UDAF - 数据湖探索 DLI

迁移数据场景概述 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

在Spark SQL作业中使用UDF - 数据湖探索 DLI

scala样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

pyspark样例代码 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线