检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对象存储OBS结果表 功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以
278014413, /spark.db/sink_parquent_obs/compacted-part-fd4d4cc8-8b18-42d5-b522-9b524500fa23-0-0] 父主题: 对象存储OBS
对象存储OBS 对象存储OBS源表 对象存储OBS结果表 父主题: Connector列表
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。
Flink Jar作业设置backend为OBS,报错不支持OBS文件系统 问题现象 客户执行Flink Jar作业,通过设置checkpoint存储在OBS桶中,作业一直提交失败,并伴有报错提交日志,提示OBS桶名不合法。 原因分析 确认OBS桶名是否正确。 确认所用AKSK是否有权限。
DLI Flink作业提交运行后(已选择保存作业日志到OBS桶),提交运行失败的情形(例如:jar包冲突),有时日志不会写到OBS桶中 DLI Flink作业提交或运行失败时,对应生成的作业日志保存方式,包含以下三种情况: 提交失败,只会在submit-client下生成提交日志。
String bucketName ="obs_name"; ObsBuckets obsBuckets = new ObsBuckets(); obsBuckets.addObsBucketsItem(bucketName);
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将
SQL作业分析OBS数据 DLI支持将数据存储到OBS上,后续再通过创建OBS表即可对OBS上的数据进行分析和处理。 本指导中的操作内容包括:创建OBS表、导入OBS表数据、插入和查询OBS表数据等内容来帮助您更好的在DLI上对OBS表数据进行处理。 前提条件 已创建OBS的桶。具体
程序包管理概述 在执行DLI作业前需要将UDF Jar包或Jar作业程序包上传到云平台进行统一的管理和维护。 有以下两种方式管理程序包: (推荐使用)上传至OBS管理程序包:提前将对应的jar包上传至OBS桶中,在作业配置时选择对应的OBS路径。 (DLI程序包功能即将停用)上传
按照存储在DLI服务中的表数据存储量(单位为“GB”)收取存储费用。 在估算存储费用时,请特别注意,DLI采用压缩存储,通常能压缩到原文件大小的 1/5 。DLI存储按照压缩后的大小计费。 如果数据存储在OBS服务中,则DLI服务不收取存储费用,对应的费用由OBS服务收取。 扫描量计费
Hudi存储结构 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 在DLI环境,Hudi表的数据文件存储在OBS上,因此可以通过查看OBS文件检查。 如下,展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie // 元数据文件夹
概述 欢迎使用数据湖探索。 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark
请求参数说明如下,详细参数使用可以参考Python SDK概述下载样例代码。 kind:资源包类型,当前支持的包类型分别为: jar:用户jar文件 pyfile:用户Python文件 file:用户文件 modelfile:用户AI模型文件 obs_jar_paths:对应资源包的OBS路径,参数构成为:{bucketName}
表格存储服务CloudTable相关介绍请参考《表格存储服务产品介绍》。 云搜索服务CSS相关介绍请参考《云搜索服务产品介绍》。 分布式缓存服务DCS相关介绍请参考《分布式缓存服务产品介绍》。 文档数据库服务DDS相关介绍请参考《文档数据库服务产品介绍》。 数据仓库服务Gauss
存储数据:DLI中支持创建OBS表,该类型表在DLI服务中只有元数据,实际数据在该表对应的OBS路径中。 创建OBS表的SQL语法请参考《使用DataSource语法创建OBS表》和《使用Hive语法创建OBS表》。 备份数据:使用DLI提供导出API,将DLI的数据导出到OBS中备份。 具体API请参考《导出数据》。
Flink作业概述 DLI支持的两种类型的Flink作业: Flink OpenSource SQL类型作业: 完全兼容社区版的Flink,确保了作业可以在这些Flink版本上无缝运行。 在社区版Flink的基础上,DLI扩展了Connector的支持,新增了Redis、DWS作
统特性指南》。 使用须知 请勿将该OBS桶用作其它用途,避免出现作业结果混乱等问题。 OBS桶需要由用户主账户统一设置及修改,子用户无权限。 不配置DLI作业桶无法查看作业日志。 您可以通过配置桶的生命周期规则,定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后
return print(table) 完整样例代码和依赖包说明请参考:Python SDK概述。 创建OBS表 DLI提供创建OBS表的接口。您可以使用该接口创建数据存储在OBS的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13
概述 数据类型是数据的一个基本属性,用于区分不同类型的数据。不同的数据类型所占的存储空间不同,能够进行的操作也不相同。数据库中的数据存储在表中。表中的每一列都定义了数据类型,用户存储数据时,须遵从这些数据类型的属性,否则可能会出错。 DLI当前只支持原生数据类型。 父主题: 数据类型