检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“encoding”:外表中数据源文件的编码格式名称,缺省为utf8。对于OBS外表此参数为必选项。 DISTRIBUTE BY: 这个子句是必须的,对于OBS外表,当前只支持ROUNDROBIN分布方式。 表示外表在从数据源读取数据时,GaussDB(DWS)集群每一个节点随机读取一部分数据,并组成完整数据。
使用即将创建外部服务器的用户去连接其对应的数据库。 在本示例中,将使用(可选)新建用户及数据库并授予外表权限中创建的普通用户dbuser连接其创建的数据库mydatabase 。用户需要通过GaussDB(DWS)提供的数据库客户端连接数据库。 例如,使用gsql客户端的用户可以通过以下两种方法中的一种进行连接:
上传数据到OBS 操作场景 从OBS导入数据到集群之前,需要提前准备数据源文件,并将数据源文件上传到OBS。如果您的数据文件已经在OBS上了,则只需完成上传数据到OBS中的2~3。 准备数据文件 准备需要上传到OBS的数据源文件。GaussDB(DWS)只支持CSV、TEXT、O
1”,其原始数据如原始数据所示,都已经存储在OBS桶“mybucket”的“demo.db/product_info_orc/”目录中。 如果数据文件已经在OBS上了,请执行获取源数据的OBS路径并设置读取权限中的步骤。 本小节以导入ORC格式为例,CARBONDATA数据的导入方法与ORC格式相似。
导出数据到OBS 关于OBS并行导出 导出CSV、TXT数据到OBS 导出ORC数据到OBS 父主题: 导出数据
”创建并下载访问密钥。 梳理待导入数据的格式信息,确定创建外表时使用的数据格式参数的值。需要收集的主要数据源格式信息如下: format:外表中数据源文件的格式。OBS外表导入支持CSV、TEXT格式。缺省值为TEXT。 header:指定导出数据文件是否包含标题行,header只能用于CSV格式的文件中。
使用即将创建外部服务器的用户去连接其对应的数据库。 在本示例中,将使用(可选)新建用户及数据库并授予外表权限中创建的普通用户dbuser连接其创建的数据库mydatabase 。用户需要通过GaussDB(DWS)提供的数据库客户端连接数据库。 例如,使用gsql客户端的用户可以通过以下两种方法中的一种进行连接:
的预览数据。 添加“DWS表输出”节点,并配置好数据库连接、目标表、目标表字段与数据源字段对应关系及其它参数。“DWS表输出”控制对应的数据源只支持PostgreSQL。 保存转换任务,并启动任务。 查看运行结果,去目标数据表检查搬迁数据总数和明细数据是否与需要搬迁的数据一致。 父主题:
导出ORC数据到MRS 导出ORC数据概述 规划导出数据 创建外部服务器 创建外表 执行导出 父主题: 导出数据
查询结果显示与原始数据显示相同,则表示导入成功。查询结果的结尾将显示以下信息: 1 (10 rows) 通过外表查询到数据后,用户可以将数据插入数据库的普通表。 导入数据后查询数据 在GaussDB(DWS)数据库中,创建导入数据的目标表,用于存储导入的数据。 该表的表结构必须与创建外表中创建的外表的表结构保持一致,即字段个数、字段类型要完全一致。
创建访问密钥(AK和SK) 在本示例中,将导入OBS数据到GaussDB(DWS)集群数据库中。云平台用户通过客户端或API、SDK等方式访问OBS时,需要通过AK/SK认证方式进行认证鉴权。因此,当您需要通过客户端或JDBC/ODBC应用程序等方式连接GaussDB(DWS)数据库访问OBS时,必须先获取访问密钥(AK和SK)。
文件中。 在导入数据时,如果header选项为on,则数据文本第一行会被识别为标题行,会忽略此行。如果header为off,而数据文件中第一行会被识别为数据。 在导出数据时,如果header选项为on,则需要指定fileheader。fileheader是指定导出数据包含标题行的
“dataencoding” 在数据库编码与数据表的数据编码不一致时,该参数用于指定导出数据表的数据编码。比如数据库编码为Latin-1,而导出的数据表中的数据为UTF-8编码。此选项为可选项,如果不指定该选项,默认采用数据库编码。此语法仅对HDFS的WRITE ONLY外表有效。 取值范围:该数据库编码支持转换的数据编码。
导出表 GaussDB(DWS)支持使用gs_dump工具导出表级的内容,包含表定义和表数据。视图、序列和外表属于特殊的表。用户可通过灵活的自定义方式导出表内容,不仅支持选定一个表或多个表的导出,还支持排除一个表或者多个表的导出。可根据需要自定义导出如下信息: 导出表全量信息,包含表数据和表定义。
rows) 删除自定义数据库。 通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。 如果已经登录了gsql客户端,可以直接执行如下命令进行切换: 1 \c postgres 根据界面提示输入密码。 执行以下命令,删除自定义数据库: 1 DROP DATABASE
导出模式 GaussDB(DWS)目前支持使用gs_dump工具导出模式级的内容,包含模式的数据和定义。用户可通过灵活的自定义方式导出模式内容,不仅支持选定一个模式或多个模式的导出,还支持排除一个模式或者多个模式的导出。可根据需要自定义导出如下信息: 导出模式全量信息,包含数据和对象定义。
导入数据最佳实践 从OBS并行导入数据 将导入数据拆分为多个文件 导入大数据量的数据时,通常需要较长的时间及耗费较多的计算资源。 从OBS上导入数据时,如下方法可以提升导入性能:将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量为DN的整数倍更适合。 在导入前后验证数据文件
创建GDS外表并导入TPC-DS数据 本文介绍如何通过GDS外表导入TPC-DS 1000x数据,表1列出了TPC-DS测试数据集中的表数据行数。 TPC-H请跳过本章节。 表数据行数 表1 TPC-DS 序号 表名 行数 1 customer_address 6,000,000
导出数据 导出数据到OBS 导出ORC数据到MRS 使用GDS导出数据到远端服务器
导出数据库 GaussDB(DWS)支持使用gs_dump工具导出某个数据库级的内容,包含数据库的数据和所有对象定义。可根据需要自定义导出如下信息: 导出数据库全量信息,包含数据和所有对象定义。 使用导出的全量信息可以创建一个与当前库相同的数据库,且库中数据也与当前库相同。 仅导