检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
gdsgrp gds_user 将准备好的CSV格式数据源文件均匀分发至相应数据服务器的“/input_data”目录中。 修改每台数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。以下以IP为192.168.0.90的数据服务器为例,进行操作。 chown
GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 当不在使用GDS时,可通过以下步骤停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。
数据源文件中的列数比外表定义的列数少。 对于TEXT格式的数据源文件,由于转义字符(\)导致delimiter(分隔符)错位或者quote(引号字符)错位造成的错误。 示例:目标表存在3列字段,导入的数据如下所示。由于存在转义字符“\”,分隔符“|”被转义为第二个字段的字段值,导致第三个字段值缺失。
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (可选)创建用户及所属的用户组。此用户为启动GDS的用户,该用户需要拥有导出数据文件存放目录的写权限。
关案例请参见多线程导入。 在资源许可的情况下,多台GDS服务器并发导入会很大程度上提高数据导入效率。相关案例请参见多数据服务器并行导入。 对于高并发的GDS导入场景,为了保持GDS和DN间的数据连接稳定,可以将GDS服务器环境和DN所在环境的TCP Keepalive检测时间增长
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数
eol:确认数据文件中,行间的换行符。例如,默认的换行符,如0x0D0A、0X0A,或者自定义的换行符,如字符串!@#。该参数仅支持TEXT格式导入。 外表可识别的其他更多格式信息请参见数据格式参数。 需要收集的GDS服务的访问信息如下: location:GDS服务的访问地址。例如以安装
在数据库中创建外表foreign_tpcds_reasons用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 由于启动GDS时,设置的导出数据文件存放目录为“/output_data/”,GDS监听端口为5000。创建的导出数据文件存放目录为“/output_data/”。所以设置参
梳理待导出数据的格式信息,确定创建外表时使用的数据格式参数的值。 根据前面步骤确定的参数,创建GDS外表。 示例 示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器与集群处于同一内网,数据服务器IP为192
Service)工具将远端服务器上的数据导入GaussDB(DWS)中的过程,帮助您学习如何通过GDS进行数据导入的方法。 GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。 在本教程中,您将: 生成本教程需要使用的CSV格式的数据源文件。 将数据源文件上传到数据服务器。
最大为1GB-8203B(即1073733621B) 。 除了每列的大小限制以外,每个元组的总大小也不可超过1GB-8023B(即1073733621B)。 对于字符串数据,建议使用变长字符串数据类型,并指定最大长度。请务必确保指定的最大长度大于需要存储的最大字符数,避免超出最大长度时出现字符截断现象
问域名。 内网IP 通过内部网络访问集群数据库的IP地址。 说明: 内网访问IP地址在创建集群时自动生成,生成后的IP地址是固定的。 内网访问IP的数量对应的是CN节点的个数,可以通过登录任一节点连接到集群。 通过内网访问某个固定的IP,资源池会集中在一个CN上。 集群开启IPv
Server,简称ECS)作为集群的节点,每个弹性云服务器是集群中的一个节点。 与裸金属服务器的关系 数据仓库服务使用裸金属服务器(Bare Metal Server,简称BMS)作为集群的节点,每个裸金属服务器是集群中的一个节点。 与虚拟私有云的关系 数据仓库服务使用虚拟私有云(Virtual
将hdfs上的数据写入到管道文件而不需要占用额外的磁盘空间。 当用户导入前需要清洗数据时,用户可以根据自己的需求编写程序,将需要处理的数据流式实时的写入管道文件,完成导入的数据清洗工作。 当前版本暂不支持SSL模式下GDS导入,请勿以SSL方式使用GDS。 本章涉及的所有管道文件都是指Linux上的命名管道。
使用GDS工具将数据从数据库导出到普通文件系统中,适用于高并发、大量数据导出的场景。 当前版本的GDS支持从数据库导出到管道文件,该功能使GDS的导出更加灵活多变。 当GDS用户的本地磁盘空间不足时: 通过管道文件将从GDS导出的数据进行压缩减少磁盘空间。 通过管道直接将导出来的数据放到hdfs服务器上。 当用户导出前需要清洗数据时:
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 查询合适的缩容数成功。 400 请求错误 401 鉴权失败。 403 没有操作权限。
中,系统维护一个内部的记数器,跟踪所执行的各种I/O操作的近似开销。如果积累的开销达到了vacuum_cost_limit声明的限制,则执行这个操作的进程将睡眠vacuum_cost_delay指定的时间。然后它会重置记数器然后继续执行。 这个特性是缺省关闭的。要想打开它,把va
个不同的概念,类似于字符串str=“”和str=null。 对于数字,当使用科学计数法的时候,jsonb类型会将其展开,而json会精准复制输入。 jsonb高级特性 json和jsonb的主要差异在于存储方式上的不同,jsonb存储的是解析后的二进制,能够体现JSON的层次结构
GaussDB(DWS)外表支持NULL定义,HIVE数据表支持并采用相对应的NULL定义。 HIVE数据表中的TINYINT的取值范围为[-128,127],而GaussDB(DWS) 的TINYINT的取值范围为[0,255],因此,HIVE表中的TINYINT类型在建GaussDB(DWS)只读外