检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
(可选)如果使用Linux环境,使用WinScp工具将SSL证书上传到Linux环境上。 配置证书以使用SSL加密连接。 下载windows版本的OpenSSL工具。下载地址:https://slproweb.com/products/Win32OpenSSL.html,最新稳定版本是3.4系列,所有旧版本(包括1
GDS导入示例 多数据服务器并行导入 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。 以root用户登录每台GDS数据服务器,在两台数据服务器上,分别创建数据文件存放目录“/input_data”。以下以IP为192
待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。 操作步骤 以root用户登录数据服务器。 创建数据文件存放目录“/input_data”。
前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件 GDS服务器和GaussDB(DWS)集群之间网络可以互通。 需要创建一个弹性云服务器作为GDS服务器。 创建的弹性云服务器与GaussDB(DWS)集群应处于同一区域、同一虚拟私有云和子网。
解决办法:检查copy语句中属性列与实际数据是否相对应。 GAUSS-01239: "missing data for column '%s'" SQLSTATE: 22P04 错误原因:copy语句中希望导入的列数大于实际的数据列数,使得其中的某列没有数据。 解决办法:检查copy语句中的属性列与导入的数据量列数是否一致。
配置SSL参数 字段名称 说明 客户端SSL证书 选择SSL证书解压目录下的“sslcert\client.crt”文件。 客户端SSL密钥 客户端SSL密钥只支持PK8格式,请选择SSL证书解压目录下的“sslcert\client.key.pk8”文件。 根证书 当“SSL模式”设为“v
解答:关键错误可能发生在以下情景。检查: 连接是否长时间空闲并且超时。 服务器是否在运行。 服务器是否有足够的内存并且“无内存”问题是否有上报服务器。 限制条件是什么? 解答:限制条件用来限制表格中每列中不需要的数据插入。用户可以对任何表格的一列或多列创建限制条件。保持表格中的数据完整。 支持的3种限制条件如下:
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数
表机制的配合,实现数据的高速导出。 当不在使用GDS时,可通过以下步骤停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。
Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。 Remote模式并行导出数据操作示例如下所示: 以root用户登录GDS数据服务器,创建数据文件存放目录“/ou
源文件中的字段比外表定义列数多时,请选择是忽略多出的列,还是在错误表中报错提示。 取值范围:true/on、false/off。 参数为true/on,若数据源文件比外表定义列数多,则忽略行尾多出来的列。 参数为false/off,若数据源文件比外表定义列数多,会显示如下错误信息。
column 格式错误 数据源文件中的列数比外表定义的列数多。 在数据源文件中,删除多余的字段值。 在创建外表时,将参数“ignore_extra_data”设置为“on”。即在导入过程中,若数据源文件比外表定义的列数多,则忽略行尾多出来的列。 invalid input syntax
使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (可选)创建用户及所属的用户
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,待导出的数据文件格式为CSV,选择并行导出模式为Remote模式。
准备ECS作为GDS服务器 购买Linux弹性云服务器的操作步骤,请参见《弹性云服务器快速入门》中的自定义购买弹性云服务器。购买后,请参见登录Linux弹性云服务器进行登录。 ECS操作系统必须是GDS工具包所支持的操作系统。 ECS与DWS处于同一区域、同一虚拟私有云和子网。 ECS安全组规则需放通DWS集群的访问,即安全组入规则:
外表:用于规划导出数据文件的数据文件格式、存放位置、编码格式等信息。 GDS:数据服务工具。在导出数据时,需要将此工具部署到数据文件所在的服务器上,使DN可以通过该工具导出数据。 表:数据库中的表,包括行存表和列存表。数据文件中的数据从这些表中导出。 Remote导出模式:将集群中的业务数据导出到集群之外的主机上。
目标表:数据库中的实表。数据源文件中的数据最终导入到这些表中存储,包括行存表和列存表。 GDS并发导入 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。如图2所示。 图2 多数据服务器并行导入 GDS进程数目不能超过DN数目。如果超过,会出现
码信息。 SSL模式。 如果需要使用SSL证书连接,那么请将GaussDB(DWS)安装包中的SSLCERT的证书包解压,双击“sslcert_env.bat”文件,即可完成证书的默认位置的部署。 该sslcert_env.bat为了保证证书环境的纯净,在%APPDATA%\po