检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
备服务器 build_backup_param 参数说明:控制增量build过程中用于磁盘备份的最小满足规格。 参数类型:SIGHUP 取值范围:字符串 默认值:(1%,1G,1G) 该参数只会影响增量build过程中是否生成pg_rewind_bak目录,字符串生效需要采用'x%
梳理待导出数据的格式信息,确定创建外表时使用的数据格式参数的值。 根据前面步骤确定的参数,创建GDS外表。 示例 示例:创建GDS导出外表foreign_tpcds_reasons,待导出数据格式为CSV,用于接收数据服务器上的数据。 其中设置的导出模式信息如下所示: 规划数据服务器
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
通过外表导出数据 相关概念 数据文件:存储有数据的TEXT、CSV或FIXED文件。文件中保存的是从GaussDB(DWS)数据库导出的数据。 外表:用于规划导出数据文件的数据文件格式、存放位置、编码格式等信息。 GDS:数据服务工具。在导出数据时,需要将此工具部署到数据文件所在的
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件
连接GaussDB(DWS)数据库时,提示客户端连接数太多 问题现象 连接GaussDB(DWS) 数据库时报错,提示客户端连接数太多。 使用gsql等SQL客户端工具连接数据库时,出现如下报错信息: 1 FATAL: Already too many clients, acti
GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 安装配置和启动GDS操作步骤如下,详细内容请参见安装配置和启动GDS。 操作步骤 在使用GDS导入/导出数据前,请先参考教程:使用GDS从远端服务器导入数据中的步骤:“准备ECS作为GDS服务器”、“下载GDS工具包”。
详细内容,请参见《数据仓库服务API参考》。 多样化的数据导入方式 GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见迁移数据到GaussDB(DWS)章节。 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群
建、查询和维护数据仓库所需的信息。 数据库基本操作 创建和管理数据库 创建和管理表 管理用户及权限 配置GUC参数 用户自定义函数 PostGIS空间数据库扩展 全文检索 SQL语法参考 存储过程 系统表和视图 导入/导出数据 从OBS导入数据到集群 并行导出数据到OBS 使用GDS从远端服务器导入数据
GDS工具包 GDS工具包是数据服务工具。用户可以使用GDS工具将普通文件系统中的数据文件导入到GaussDB(DWS)数据库中,GDS工具包需要安装在数据源文件所在的服务器上。数据源文件所在的服务器称为数据服务器,也称为GDS服务器。 下载客户端 表1 gsql下载地址 操作系统类别
GDS导入示例 多数据服务器并行导入 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90和192.168.0.91。数据源文件格式为CSV。 以root用户登录每台GDS数据服务器,在两台数据服务器上,分别创建数据文件存放目录“/input_data”。以下以IP为192
请确认存放在数据服务器上待入库数据的格式。例如,待入库的数据为CSV格式。 header(仅支持CSV,FIXED格式):确认数据文件是否包含标题行。 delimiter:确认数据文件中,字段间的分隔符。例如,以英文逗号分隔的。 encoding:数据源文件的数据编码格式。例如,为UTF-8。
操作场景 当数据导入发生错误时,请根据本文指引信息进行处理。 查询错误信息 数据导入过程中发生的错误,一般分为数据格式错误和非数据格式错误,错误表只能记录数据格式错误。 数据格式错误 在创建外表时,通过设置参数“LOG INTO error_table_name”,将数据导入过程中
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
往GaussDB(DWS)写数据慢,客户端数据会有积压 问题现象 客户端往GaussDB(DWS)写入数据较慢,客户端数据会有积压。 原因分析 如果通过单条INSERT INTO语句的方式单并发写数据入库,客户端很可能会出现瓶颈。INSERT是最简单的一种数据写入方式,适合数据写入量不大,并发度不高的场景。
目标表:数据库中的实表。数据源文件中的数据最终导入到这些表中存储,包括行存表和列存表。 GDS并发导入 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。如图2所示。 图2 多数据服务器并行导入 GDS进程数目不能超过DN数目。如果超过,会出
数据脱敏 GaussDB(DWS)提供列级别的数据脱敏(Dynamic Data Masking)功能。针对某些敏感信息(如身份证号、手机号、银行卡号等),通过应用脱敏函数进行原始数据的变形改写,实现敏感隐私数据的可靠保护,从而增强产品在数据安全和隐私保护方面的能力。 了解更多请参见数据脱敏。
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
安全和认证(postgresql.conf) 介绍设置客户端和服务器的安全认证方式的相关参数。 authentication_timeout 参数说明:完成客户端认证的最长时间。如果一个客户端没有在这段时间里完成与服务器端的认证,则服务器自动中断与客户端的连接,这样就避免了出问题的客户端无限制地占用连接数。 参数类型:SIGHUP
GaussDB(DWS)提供了数据服务工具GDS来帮助分发待导入的用户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。