-
PG - 数据仓库服务 GaussDB(DWS)
PG_FOREIGN_SERVER系统表存储外部服务器定义。一个外部服务器描述了一个外部数据源,例如一个远程服务器。外部服务器通过外部数据封装器访问。 表1 PG_FOREIGN_SERVER字段 名字 类型 引用 描述 oid oid - 行标识符(隐藏属性,必须明确选择才会显示)。
-
PG - 数据仓库服务 GaussDB(DWS)
PG_FOREIGN_SERVER系统表存储外部服务器定义。一个外部服务器描述了一个外部数据源,例如一个远程服务器。外部服务器通过外部数据封装器访问。 表1 PG_FOREIGN_SERVER字段 名字 类型 引用 描述 oid oid - 行标识符(隐藏属性,必须明确选择才会显示)。
-
备服务器 - 数据仓库服务 GaussDB(DWS)
当前build实例需同时满足以下两个条件才会进行build备份生产pg_rewind_bak,占用额外空间;不满足则不进行build备份,不占用额外空间。 条件一:当前磁盘总容量>= zG。如果不满足该条件则不进行备份;若满足该条件会继续对条件二进行判断。 条件二:磁盘剩余空间 >= yG且当前磁盘剩余空间百分比>=
-
主服务器 - 数据仓库服务 GaussDB(DWS)
参数说明:当数据库在数据导入行存表时,主机与备机的数据同步方式可以进行选择。 参数类型:USERSET 取值范围:布尔型 on表示导入数据行存表时主备数据采用数据页的方式进行同步。当replication_type参数为1时,不允许设置为on。 off表示导入数据行存表时主备数据采用日志(Xlog)方式进行同步。
-
主服务器 - 数据仓库服务 GaussDB(DWS)
参数说明:当数据库在数据导入行存表时,主机与备机的数据同步方式可以进行选择。 参数类型:USERSET 取值范围:布尔型 on表示导入数据行存表时主备数据采用数据页的方式进行同步。当replication_type参数为1时,不允许设置为on。 off表示导入数据行存表时主备数据采用日志(Xlog)方式进行同步。
-
服务器信号函数 - 数据仓库服务 GaussDB(DWS)
查询取消(SIGINT)信号。一个活动的后端进程的PID可以从pg_stat_activity视图的pid字段找到,或者在服务器上用ps列出数据库进程。 示例: 1 2 3 4 5 6 7 8 9 10 11 SELECT pid FROM pg_stat_activity
-
服务器信号函数 - 数据仓库服务 GaussDB(DWS)
查询取消(SIGINT)信号。一个活动的后端进程的PID可以从pg_stat_activity视图的pid字段找到,或者在服务器上用ps列出数据库进程。 示例: 1 2 3 4 5 6 7 8 9 10 11 SELECT pid FROM pg_stat_activity
-
创建外部服务器 - 数据仓库服务 GaussDB(DWS)
创建外部服务器 HDFS创建外部服务器请参见手动创建外部服务器。 父主题: 导出ORC数据到MRS
-
创建外部服务器 - 数据仓库服务 GaussDB(DWS)
创建外部服务器 OBS创建外部服务器请参见创建外部服务器。 HDFS创建外部服务器请参见手动创建外部服务器。 父主题: 导出ORC数据到OBS
-
发送端服务器 - 数据仓库服务 GaussDB(DWS)
发送端服务器 wal_keep_segments 参数说明:Xlog日志文件段数量。设置“pg_xlog”目录下保留事务日志文件的最小数目,备机通过获取主机的日志进行流复制。 参数类型:SIGHUP 取值范围:整型,2 ~ INT_MAX 默认值:128 设置建议: 当服务器开启日
-
创建外部服务器 - 数据仓库服务 GaussDB(DWS)
指定OBS服务的终端节点。 address的获取方法如下: 先通过OBS上的数据准备中的2获取OBS路径。 在OBS上查看到的OBS路径,为OBS服务终端节点(Endpoint):obs.xxx.xxx.com。 访问密钥(AK和SK)(必选) GaussDB(DWS)需要通过访问密钥(AK和SK)访问OBS,因此,必须先获取访问密钥。
-
发送端服务器 - 数据仓库服务 GaussDB(DWS)
发送端服务器 wal_keep_segments 参数说明:Xlog日志文件段数量。设置“pg_xlog”目录下保留事务日志文件的最小数目,备机通过获取主机的日志进行流复制。 参数类型:SIGHUP 取值范围:整型,2 ~ INT_MAX 默认值:128 设置建议: 当服务器开启日
-
如何与DWS进行通信? - 数据仓库服务 GaussDB(DWS)
password -r 图2 对等连接访问 业务应用与DWS在不同区域下 如果业务应用与DWS在不同区域下,例如ECS在“北京四”、DWS在“上海一”,此时需要将两个区域建立云连接后才能通信。 图3 云连接访问 业务应用在云下数据中心,需要与DWS进行通信 如果业务应用不在云上,在本地数据中
-
手动创建外部服务器 - 数据仓库服务 GaussDB(DWS)
如果尚未登录gsql客户端,或者已经登录了gsql客户端执行\q退出gsql后,执行以下命令重新进行连接: 1 gsql -d postgres -h 192.168.2.30 -U dbadmin -p 8000 -W password -r 执行以下命令查询自动创建的外部服务器的信息: 1 SELECT *
-
创建弹性云服务器 ECS - 数据仓库服务 GaussDB(DWS)
创建弹性云服务器 ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
-
安装配置和启动GDS - 数据仓库服务 GaussDB(DWS)
GaussDB(DWS)提供了数据服务工具GDS来帮助分发待导入的用户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。
-
GDS导入示例 - 数据仓库服务 GaussDB(DWS)
在IP为192.168.0.90的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds -d /input_data -p 192.168.0.90:5000 -H 10.10.0.1/24 -D 在IP为192.168.0.91的数据服务器上启动GDS。 /opt/bin/dws/gds/bin/gds
-
使用GDS从远端服务器导入数据最佳实践 - 数据仓库服务 GaussDB(DWS)
128954为上一步骤中查询出的GDS进程号。 kill -9 128954 清除资源 执行以下命令,删除目标表product_info。 1 DROP TABLE product_info; 当结果显示为如下信息,表示删除成功。 1 DROP TABLE 执行以下命令,删除外表product_info_ext。
-
执行导入数据 - 数据仓库服务 GaussDB(DWS)
数据导入性能。建议在执行数据导入前,先删除相关表的索引,但是如果不能保证数据唯一性不建议删除唯一索引。在数据导入完成后,再重新创建索引。 假定在导入表“product_info”上的“product_id”字段上存在普通索引“product_idx”。在执行数据导入前,请先删除相关索引。
-
关于GDS并行导出 - 数据仓库服务 GaussDB(DWS)
通过管道直接将导出来的数据放到hdfs服务器上。 当用户导出前需要清洗数据时: 用户可以根据自己的需求编写程序,将需要处理的流式数据实时从管道中读取内容,完成导出的数据清洗工作。 当前版本暂不支持SSL模式下GDS导出,请勿以SSL方式使用GDS。 本章涉及的所有管道文件都是指linux上的命名管道。