-
创建弹性云服务器 ECS - 数据仓库服务 GaussDB(DWS)
创建弹性云服务器 ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
-
使用GDS从远端服务器导入数据最佳实践 - 数据仓库服务 GaussDB(DWS)
准备ECS作为GDS服务器 购买Linux弹性云服务器的操作步骤,请参见《弹性云服务器快速入门》中的自定义购买弹性云服务器。购买后,请参见登录Linux弹性云服务器进行登录。 ECS操作系统必须是GDS工具包所支持的操作系统。 ECS与DWS处于同一区域、同一虚拟私有云和子网。 ECS安全组规则需放通DWS集群的访问,即安全组入规则:
-
准备源数据 - 数据仓库服务 GaussDB(DWS)
ta”。 mkdir -p /input_data 将数据源文件上传至上一步所创建的目录中。 GDS并行导入支持CSV、TEXT格式的数据导入。请确保数据源文件符合格式要求。 父主题: 使用GDS从远端服务器导入数据
-
GDS导入数据时是否支持使用公网/外网导入? - 数据仓库服务 GaussDB(DWS)
不支持。GDS导入数据的原理是,GDS服务器和GaussDB(DWS)在内网互通的前提下,使用集群内每个DN去并行连接GDS服务器,以达到大容量并行导入的目的,因此必须确保GDS服务器与集群在同一个网络内。如果GDS为线下服务器,则需要打通防火墙,并且GaussDB(DWS)集群需要使用EIP,但一个集群只能
-
DROP SERVER - 数据仓库服务 GaussDB(DWS)
EXISTS 如果指定的表不存在,则发出一个notice而不是抛出一个错误。 server_name 服务器名称。 CASCADE | RESTRICT CASCADE:级联删除依赖于server的对象 。 RESTRICT(缺省值):如果存在依赖对象,则拒绝删除该server。 示例
-
DROP SERVER - 数据仓库服务 GaussDB(DWS)
EXISTS 如果指定的表不存在,则发出一个notice而不是抛出一个错误。 server_name 服务器名称。 CASCADE | RESTRICT CASCADE:级联删除依赖于server的对象 。 RESTRICT(缺省值):如果存在依赖对象,则拒绝删除该server。 示例
-
创建GDS外表 - 数据仓库服务 GaussDB(DWS)
数据入库时,数据源文件中某行的最后一个字段缺失时,请选择是直接将字段设为Null,还是在错误表中报错提示。 取值范围:true/on,false/off。 参数为true/on,当数据导入时,若数据源文件中一行数据的最后一个字段缺失,则把最后一个字段的值设置为NULL,不报错。
-
关于GDS并行导入 - 数据仓库服务 GaussDB(DWS)
B(DWS)及数据服务器上的I/O资源均还有可利用空间时,可以采用GDS多线程来支持并发导入。 GDS是根据导入事务并发数来决定服务运行线程数的,也就是说即使启动GDS时设置了多线程,也并不会加速单个导入事务。未做过人为事务处理时,一条INSERT语句就是一个导入事务。 综上,多线程的使用场景如下:
-
创建GDS外表 - 数据仓库服务 GaussDB(DWS)
示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,待导出的数据文件格式为CSV,选择并行导出模式为Remote模式。
-
停止GDS - 数据仓库服务 GaussDB(DWS)
4为上一步骤中查询出的GDS进程号。 kill -9 128954 若用户使用“gds_ctl.py”命令启动GDS,请使用以下命令停止GDS。 cd /opt/bin/dws/gds/bin python3 gds_ctl.py stop 父主题: 使用GDS从远端服务器导入数据
-
关于GDS并行导出 - 数据仓库服务 GaussDB(DWS)
e模式。 Remote模式:将集群中的业务数据导出到集群之外的主机上。 支持多个GDS服务并发导出,但1个GDS在同一时刻,只能为1个集群提供导出服务。 配置与集群节点处于统一内网的GDS服务,导出速率受网络带宽影响,推荐的网络配置为10GE。 支持数据文件格式:TEXT、CSV和FIXED。单行数据大小需<1GB。
-
CREATE SERVER - 数据仓库服务 GaussDB(DWS)
server_name 要创建的外部服务器的名称。服务器名称在数据库中必须唯一。 取值范围:长度必须小于等于63。 FOREIGN DATA WRAPPER fdw_name 指定外部数据封装器的名字。 取值范围:fdw_name是数据库初始化时系统创建的数据封装器,目前对于HDFS集群,f
-
CREATE SERVER - 数据仓库服务 GaussDB(DWS)
server_name 要创建的外部服务器的名称。服务器名称在数据库中必须唯一。 取值范围:长度必须小于等于63。 FOREIGN DATA WRAPPER fdw_name 指定外部数据封装器的名字。 取值范围:fdw_name是数据库初始化时系统创建的数据封装器,目前对于HDFS集群,f
-
GAUSS-03321 -- GAUSS-03330 - 数据仓库服务 GaussDB(DWS)
SQLSTATE: 22021 错误原因:待转换的字符是一个非法的多字节字符。该字符是符合服务器locale的,但是服务器设置的LC_CTYPE locale与数据库的字符编码不兼容。 解决办法:服务器设置的locale与数据库字符编码不兼容,请重新设置服务器的locale。 GAUSS-03322:
-
使用GDS导出数据到远端服务器 - 数据仓库服务 GaussDB(DWS)
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
-
安装配置和启动GDS - 数据仓库服务 GaussDB(DWS)
gds_env 启动GDS服务。 GDS是绿色软件,解压后启动即可。GDS启动方式有两种: 方式一:直接使用“gds”命令,在命令项中设置启动参数。 方式二:将启动参数写进配置文件“gds.conf”后, 使用“gds_ctl.py”命令启动。 对于集中一次性导入的场景推荐使用第一种方式。对于
-
使用GDS从远端服务器导入数据 - 数据仓库服务 GaussDB(DWS)
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
-
统计信息函数 - 数据仓库服务 GaussDB(DWS)
', 0)函数第一个参数值为nodename,第二个参数值为tid,表示打印由nodename指定的进程内tid线程的堆栈。 底层实现使用了“execute direct on”,因此必须gsql连接CN上执行。 第一个参数nodename需用单引号包括。 第二个参数必须是nod
-
安全和认证(postgresql.conf) - 数据仓库服务 GaussDB(DWS)
客户端SSL连接模式共同决定用户的密码错误次数。当PGSSLMODE取值是allow或prefer时,客户的一次密码连接请求会生成两次连接请求:一次是尝试SSL连接,另一次是尝试非SSL连接。此时,用户感知到的密码错误次数是failed_login_attempts除以2。 pa
-
安全和认证(postgresql.conf) - 数据仓库服务 GaussDB(DWS)
客户端SSL连接模式共同决定用户的密码错误次数。当PGSSLMODE取值是allow或prefer时,客户的一次密码连接请求会生成两次连接请求:一次是尝试SSL连接,另一次是尝试非SSL连接。此时,用户感知到的密码错误次数是failed_login_attempts除以2。 pa