检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
postgresql-beta1 email Email address foo@example.com protocol Protocol head http:// url URL example.com/stuff/index.html host Host example.com url_path
postgresql-beta1 email Email address foo@example.com protocol Protocol head http:// url URL example.com/stuff/index.html host Host example.com url_path
VACUUM FULL一张表后,表文件大小无变化 问题现象 使用VACUUM FULL命令对一张表进行清理,清理完成后表大小和清理前一样大。 原因分析 假定该表的名称为table_name,对于该现象可能有以下两种原因: 表本身没有delete过数据,使用VACUUM FULL
引号字符(quote)为E'\x1b'。 是否使用加密(encrypt),默认为 “off”。 用户获取OBS访问协议对应的AK值(access_key) 。 用户获取OBS访问协议对应的SK值 (secret_access_key)。 请根据用户实际获取的access_key和secr
off表示不对数据进行加密。 access_key OBS访问协议对应的AK值(OBS云服务界面由用户获取),创建外表时AK值会保存到数据库的元数据表中。该参数仅支持type为OBS时设置。 secret_access_key OBS访问协议对应的SK值(OBS云服务界面由用户获取),创建外
ECS操作系统必须是GDS工具包所支持的操作系统。 ECS与DWS处于同一区域、同一虚拟私有云和子网。 ECS安全组规则需放通DWS集群的访问,即安全组入规则: 协议:TCP 端口范围:5000 源地址:选择“IP地址”,输入GaussDB(DWS) 集群地址,例如“192.168.0.10/32”。
置。 dli_access_key DLI访问协议对应的AK值(DLI云服务界面由用户获取),创建外表时AK值会保存到数据库的元数据表中。该参数仅支持type为DLI时设置。 dli_secret_access_key DLI访问协议对应的SK值(DLI云服务界面由用户获取),创
ODBC包及依赖的库和头文件 从管理控制台下载ODBC的软件包。 请参见下载JDBC或ODBC驱动。 Linux下的ODBC包 从软件包中获取,包名为dws_8.1.x_odbc_driver_for_xxx_xxx.zip。Linux环境下,开发应用程序要用到unixODBC提供的头文件(sql
Linux版本的工具包为例 ,将GDS工具包“dws_client_8.x.x_suse_x64.zip”上传至上一步所创建的目录中。 (可选)如果使用SSL加密传输,请一并上传SSL证书至2所创建的目录下。 在工具包所在目录下,解压工具包。 cd /opt/bin/dws unzip dws_client_8
准备源数据 操作场景 通常在将数据导入数据库前,即将入库的数据已经在相关主机上了。这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。
GDS导入示例 多数据服务器并行导入 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。 以root用户登录每台GDS数据服务器,在两台数据服务器上,分别创建数据文件存放目录“/input_data”。以下以IP为192
停止GDS GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 当不在使用GDS时,可通过以下步骤停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“g
处理导入错误 操作场景 当数据导入发生错误时,请根据本文指引信息进行处理。 查询错误信息 数据导入过程中发生的错误,一般分为数据格式错误和非数据格式错误,错误表只能记录数据格式错误。 数据格式错误 在创建外表时,通过设置参数“LOG INTO error_table_name”,
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
规划导出数据 操作场景 使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数
GDS导出示例 Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。 Remote模式并行导出数据操作示例如下所示: 以root用户登录GDS数据服务器,创建数据文件