准备源数据 操作场景 通常在将数据导入数据库前,即将入库的数据已经在相关主机上了。这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤
NA NA src.passwd=123456 dws.dbtype 目标端dws数据库类型 dws dws dws.dbtype=dws dws.dbname 目标端dws数据库名称 NA gaussdb dws.dbname=gaussdb dws.ip 目标端dws数据库ip
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
规划导出数据 操作场景 使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (可选
内网IP 通过内部网络访问集群数据库的IP地址。 说明: 内网访问IP地址在创建集群时自动生成,生成后的IP地址是固定的。 内网访问IP的数量对应的是CN节点的个数,可以通过登录任一节点连接到集群。 通过内网访问某个固定的IP,资源池会集中在一个CN上。
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数据
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件
host为数据库服务器名称或IP地址,当集群绑定弹性负载均衡(ELB)时,应设置为ELB的IP地址。 port为数据库服务器端口。缺省情况下,会尝试连接到localhost的8000端口的database。
创建GDS外表 操作步骤 根据规划导出数据中规划的路径确定外表参数location的值。 Remote模式 请通过URL方式设置参数“location”,用于指定导出的数据文件存放路径。 不需要指定文件名。 当有多个路径时,若导出数据源数少于路径数时,多余的路径会只生成文件不写入数据
remote_host text 连接对端IP地址。 stream_num integer 当前物理连接使用的stream逻辑连接数量。 min_delay integer 当前物理连接探测到的最小时延,单位微秒。
已获取GaussDB(DWS)集群的公网访问地址,含IP地址和端口。具体请参见获取GaussDB(DWS)集群连接地址。 已配置GaussDB(DWS)集群所属的安全组,添加安全组的入规则允许用户的IP地址使用TCP访问端口。
GDS导出示例 Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。 Remote模式并行导出数据操作示例如下所示: 以root用户登录GDS数据服务器,创建数据文件存放目录
创建GDS外表 外表中配置了数据源格式信息、GDS服务的访问信息,从而GaussDB(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。 需要收集的主要数据源格式信息如下: format:GDS外表导入支持CSV、
关于GDS并行导入 INSERT和COPY方式执行数据导入时,是一个串行执行的过程,导入性能低,因此适用于小数据量的导入。对于大数据量的导入,GaussDB(DWS)支持使用GDS工具通过外表并行导入数据到集群。 当前版本的GDS已经支持从管道文件导入数据库,该功能使GDS的导入更加灵活多变
关于GDS并行导出 使用GDS工具将数据从数据库导出到普通文件系统中,适用于高并发、大量数据导出的场景。 当前版本的GDS支持从数据库导出到管道文件,该功能使GDS的导出更加灵活多变。 当GDS用户的本地磁盘空间不足时: 通过管道文件将从GDS导出的数据进行压缩减少磁盘空间。 通过管道直接将导出来的数据放到
remote_host text 连接对端IP地址。 stream_num integer 当前物理连接使用的stream逻辑连接数量。 min_delay integer 当前物理连接一分钟内探测到的最小时延,单位为微秒。
优化器方法配置 这些配置参数提供了影响查询优化器选择查询规划的原始方法。如果优化器为特定的查询选择的缺省规划并不是最优的,可以通过使用这些配置参数强制优化器选择一个不同的规划来临时解决这个问题。更好的方法包括调节优化器开销常量、手动运行ANALYZE、增加配置参数default_statistics_target
如何查看DWS外部表信息? 如果需要查询OBS、GDS等外表信息(如OBS路径),可以执行以下语句查询。 1 SELECT * FROM pg_get_tabledef('外表名称') 例如,表名为traffic_data.GCJL_OBS,查询如下: 1 SELECT * FROM
host为数据库服务器名称或IP地址,当集群绑定弹性负载均衡(ELB)时,应设置为ELB的IP地址。 由于安全原因,数据库CN禁止集群内部其他节点无认证接入。如果要在集群内部访问CN,请将JDBC程序部署在CN所在机器,host使用"127.0.0.1"。
安装配置和启动GDS GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 安装配置和启动GDS操作步骤如下,详细内容请参见安装配置和启动GDS。 操作步骤 在使用GDS导入/导出数据前,请先参考教程:使用GDS从远端服务器导入数据中的步骤
您即将访问非华为云网站,请注意账号财产安全