-
使用SSL进行安全的TCP/IP连接 - 数据仓库服务 GaussDB(DWS)
将导致集群暂时不可用。 修改集群安全配置必须同时满足以下两个条件: 集群状态为“可用”或“非均衡”。 任务信息不能处于“创建快照中”、“节点扩容”、“配置中”或“重启中”。 操作步骤 登录GaussDB(DWS)管理控制台。 在左侧导航树中,单击“集群 > 专属集群”。 在集群列
-
使用GDS从远端服务器导入数据最佳实践 - 数据仓库服务 GaussDB(DWS)
准备ECS作为GDS服务器 购买Linux弹性云服务器的操作步骤,请参见《弹性云服务器快速入门》中的自定义购买弹性云服务器。购买后,请参见登录Linux弹性云服务器进行登录。 ECS操作系统必须是GDS工具包所支持的操作系统。 ECS与DWS处于同一区域、同一虚拟私有云和子网。 ECS安全组规则需放通DWS集群的访问,即安全组入规则:
-
CREATE SUBSCRIPTION - 数据仓库服务 GaussDB(DWS)
host和port的数量要一致,并且要一一对应。 dbname 发布所在的数据库。 user和password 用于连接发布端且具有系统管理员权限(SYSADMIN)或者运维管理员权限(OPRADMIN)的用户名和密码。 publication_name 要订阅的发布端的发布名称,一个订阅可以对应多个发布。
-
创建GDS外表 - 数据仓库服务 GaussDB(DWS)
示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,待导出的数据文件格式为CSV,选择并行导出模式为Remote模式。
-
使用SSL进行安全的TCP/IP连接 - 数据仓库服务 GaussDB(DWS)
将导致集群暂时不可用。 修改集群安全配置必须同时满足以下两个条件: 集群状态为“可用”或“非均衡”。 任务信息不能处于“创建快照中”、“节点扩容”、“配置中”或“重启中”。 操作步骤 登录GaussDB(DWS)管理控制台。 在左侧导航树中,单击“集群 > 专属集群”。 在集群列
-
DROP SUBSCRIPTION - 数据仓库服务 GaussDB(DWS)
如果指定的订阅不存在,不会抛出一个错误,而会发出一个通知,告知订阅不存在。 name 要删除的订阅名字。 取值范围:已存在的订阅。 示例 删除订阅: DROP SUBSCRIPTION mysub; 相关链接 ALTER SUBSCRIPTION,CREATE SUBSCRIPTION 父主题:
-
使用GDS从远端服务器导入数据 - 数据仓库服务 GaussDB(DWS)
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
-
准备源数据 - 数据仓库服务 GaussDB(DWS)
ta”。 mkdir -p /input_data 将数据源文件上传至上一步所创建的目录中。 GDS并行导入支持CSV、TEXT格式的数据导入。请确保数据源文件符合格式要求。 父主题: 使用GDS从远端服务器导入数据
-
使用GDS导出数据到远端服务器 - 数据仓库服务 GaussDB(DWS)
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
-
GDS导入示例 - 数据仓库服务 GaussDB(DWS)
将数据导入过程中出现的数据格式错误信息(LOG INTO error_table_name)写入表err_tpcds_reasons1。 当数据源文件中一行的最后一个字段缺失(fill_missing_fields)时,自动设置为NULL。 根据以上信息,创建的外表tpcds.foreign_tpcds_reasons1如下所示:
-
执行导入数据 - 数据仓库服务 GaussDB(DWS)
入大量数据后发现数据倾斜,调整成本高。 前提条件 GDS服务器和GaussDB(DWS)集群之间网络可以互通。 需要创建一个弹性云服务器作为GDS服务器。 创建的弹性云服务器与GaussDB(DWS)集群应处于同一区域、同一虚拟私有云和子网。 操作步骤 在GaussDB(DWS)
-
创建GDS外表 - 数据仓库服务 GaussDB(DWS)
数据入库时,数据源文件中某行的最后一个字段缺失时,请选择是直接将字段设为Null,还是在错误表中报错提示。 取值范围:true/on,false/off。 参数为true/on,当数据导入时,若数据源文件中一行数据的最后一个字段缺失,则把最后一个字段的值设置为NULL,不报错。
-
OBS导入数据示例 - 数据仓库服务 GaussDB(DWS)
compression=middle) DISTRIBUTE BY hash (ca_address_sk); 用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input-data1”和“/input-data2”,并创建每个桶下面的data目录“/inpu
-
关于GDS并行导入 - 数据仓库服务 GaussDB(DWS)
B(DWS)及数据服务器上的I/O资源均还有可利用空间时,可以采用GDS多线程来支持并发导入。 GDS是根据导入事务并发数来决定服务运行线程数的,也就是说即使启动GDS时设置了多线程,也并不会加速单个导入事务。未做过人为事务处理时,一条INSERT语句就是一个导入事务。 综上,多线程的使用场景如下:
-
停止GDS - 数据仓库服务 GaussDB(DWS)
停止GDS GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 详细内容请参见停止GDS。 父主题: 使用GDS导出数据到远端服务器
-
处理导入错误 - 数据仓库服务 GaussDB(DWS)
的字段值。 在创建外表时,将参数“fill_missing_fields”设置为“on”。即当导入过程中,若数据源文件中一行数据的最后一个字段缺失,则把最后一个字段的值设置为NULL,不报错。 对由于转义字符导致的错误,需检查报错的行中是否含有转义字符(\)。若存在,建议在创建外
-
ALTER SUBSCRIPTION - 数据仓库服务 GaussDB(DWS)
SUBSCRIPTION 功能描述 更改订阅的属性。 注意事项 该语法仅8.2.0.100及以上集群版本支持。 订阅的所有者才能执行ALTER SUBSCRIPTION,并且新的所有者必须是系统管理员。 语法格式 更新订阅的连接信息。 1 ALTER SUBSCRIPTION name
-
创建数据仓库 GaussDB(DWS) - 数据仓库服务 GaussDB(DWS)
参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格 参数项 参数取值 区域 华北-北京4 可用区
-
规划导出数据 - 数据仓库服务 GaussDB(DWS)
使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (可选)创建用户及所属的用户
-
停止GDS - 数据仓库服务 GaussDB(DWS)
4为上一步骤中查询出的GDS进程号。 kill -9 128954 若用户使用“gds_ctl.py”命令启动GDS,请使用以下命令停止GDS。 cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS从远端服务器导入数据