检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从OBS导入ORC、CARBONDATA数据 OBS上的数据准备 创建外部服务器 创建外表 通过外表查询OBS上的数据 清除资源 支持的数据类型 父主题: 从OBS并行导入数据
Data:对象的数据内容,OBS对于数据的内容是无感知的,即认为对象内的数据为无状态的二进制数据。 外表:用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。 相关原理 下面分别从以下两类表介绍从集群导出数据到OBS的原理。
rows) 删除自定义数据库。 通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。 如果已经登录了gsql客户端,可以直接执行如下命令进行切换: 1 \c postgres 根据界面提示输入密码。 执行以下命令,删除自定义数据库: 1 DROP DATABASE
从OBS导入CSV、TXT数据 创建访问密钥(AK和SK) 上传数据到OBS 创建OBS外表 执行导入数据 处理导入错误 OBS导入数据示例 父主题: 从OBS并行导入数据
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
支持的数据类型 目前大数据领域,主流文件格式为ORC。GaussDB(DWS)主要支持ORC文件格式。用户利用HIVE将数据导出存储为ORC文件格式,使用GaussDB(DWS)通过只读外表对ORC文件内的数据进行查询分析,因此,需要在ORC文件格式支持的数据类型与GaussDB
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
Hudi任务同步 创建Hudi任务 迁移场景 如果GaussDB(DWS)表已经通过CDL导入数据,改为用SQL on Hudi方式迁移数据。或者使用CDM做全量初始化后,继续使用SQL on Hudi方式同步增量数据。 创建hudi.hudi_sync_state同步状态表,需要管理员权限。
示例 单表导出操作步骤 通过创建外表,将数据库中的单表导出至OBS的两个桶中。 用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input-data1”“/input-data2”,并创建每个桶下面的data目录“/input-da
通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败 问题现象 MySQL 5.x版本字段长度varchar(n),用CDM同步数据到GaussDB(DWS),同样设置长度为varchar(n) ,但是会出现字段超长,数据同步失败的问题。 原因分析 MySQL5
手动创建外部服务器 使用数据库管理员通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。 例如:通过gsql客户端登录数据库的用户可以使用以下两种方法中的一种进行连接: 可以通过以下两种方法中的一种进行连接: 如果已经登录了gsql客户端,可以执行以下命令切换数据库和用户:
梳理待导出数据的格式信息,确定创建外表时使用的数据格式参数的值。 根据前面步骤确定的参数,创建GDS外表。 示例 示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器
STDIN从InputStream中快速向数据库中的表导入数据。 SQLException,IOException long copyIn(String sql, InputStream from, int bufferSize) 使用COPY FROM STDIN从InputStream中快速向数据库中的表导入数据。
如果您希望使用普通用户在自定义数据库中创建外表读取MRS数据,必须先在自定义数据库中手动创建一个外部服务器。本章节将为您介绍,如何使用普通用户在自定义数据库中创建外部服务器。步骤如下: 请确保GaussDB(DWS)集群已创建MRS数据源连接。 具体操作请参见《数据仓库服务管理指南》的创建MRS数据源连接。
GaussDB(DWS)提供了数据服务工具GDS来帮助分发待导入的用户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。
Warehouse,以下简称VW)共享存储技术,实现不同负载的计算隔离和并发扩展,适用于OLAP分析场景。 GaussDB(DWS)数仓之间暂不支持互相访问,用户可通过创建的OBS外表,将两个数据库关联在同一个数据目录下进行数据查询。 功能特性对比 表1 功能特性对比 功能模块
GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 安装配置和启动GDS操作步骤如下,详细内容请参见安装配置和启动GDS。 操作步骤 在使用GDS导入/导出数据前,请先参考教程:使用GDS从远端服务器导入数据中的步骤:“准备ECS作为GDS服务器”、“下载GDS工具包”。
”为GDS服务管理的数据源文件所在的路径。请根据实际情况替换。 依据数据源文件中的数据情况,设计导入容错机制。 GaussDB(DWS)支持如下的数据容错性处理,相当于数据入库前对数据做初步的简单清洗。 fill_missing_fields:数据入库时,数据源文件中某行的最后一
操作场景 当数据导入发生错误时,请根据本文指引信息进行处理。 查询错误信息 数据导入过程中发生的错误,一般分为数据格式错误和非数据格式错误,错误表只能记录数据格式错误。 数据格式错误 在创建外表时,通过设置参数“LOG INTO error_table_name”,将数据导入过程中
导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 执行导出数据示例 示例1:将表product_info_output的数据通过外表product_info_output_ext导出到数据文件中。