检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GDS导出示例 Remote模式导出 规划数据服务器与集群处于同一内网,数据服务器IP为192.168.0.90,导出数据文件格式为CSV,所以规划的并行导出模式为Remote模式。 Remote模式并行导出数据操作示例如下所示: 以root用户登录GDS数据服务器,创建数据文件存放目录
使用GDS从远端服务器上导入表数据到GaussDB(DWS)集群 教程指引 本教程旨在演示使用GDS(General Data Service)工具将远端服务器上的数据导入GaussDB(DWS)中的过程,帮助您学习如何通过GDS进行数据导入的方法。 GaussDB(DWS)支持通过
创建GDS外表 操作步骤 根据规划导出数据中规划的路径确定外表参数location的值。 Remote模式 请通过URL方式设置参数“location”,用于指定导出的数据文件存放路径。 不需要指定文件名。 当有多个路径时,若导出数据源数少于路径数时,多余的路径会只生成文件不写入数据
以下是一些适用于包年/包月计费模式的业务场景: 稳定业务需求:对于长期运行且资源需求相对稳定的业务,如企业官网、在线商城、博客等,包年/包月计费模式能提供较高的成本效益。
表2 统计信息收集策略 场景 特点 策略 流式增量加工 数据流式增量变化,无合理ANALYZE时机 开启动态采样,查询按需自动收集统计信息,且全局共享 在线批量加工 (数据湖) 数据加工与查询会并发,要求查询稳定 开启动态采样,或一个事务中完成数据加工和ANALYZE。
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数据
关于GDS并行导入 INSERT和COPY方式执行数据导入时,是一个串行执行的过程,导入性能低,因此适用于小数据量的导入。对于大数据量的导入,GaussDB(DWS)支持使用GDS工具通过外表并行导入数据到集群。 当前版本的GDS已经支持从管道文件导入数据库,该功能使GDS的导入更加灵活多变
关于GDS并行导出 使用GDS工具将数据从数据库导出到普通文件系统中,适用于高并发、大量数据导出的场景。 当前版本的GDS支持从数据库导出到管道文件,该功能使GDS的导出更加灵活多变。 当GDS用户的本地磁盘空间不足时: 通过管道文件将从GDS导出的数据进行压缩减少磁盘空间。 通过管道直接将导出来的数据放到
创建弹性云服务器ECS和数据仓库GaussDB(DWS) 创建弹性云服务器ECS 创建数据仓库GaussDB(DWS) 父主题: 测试方法
安装配置和启动GDS 操作场景 GaussDB(DWS)提供了数据服务工具GDS来帮助分发待导入的用户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同
VACUUM FULL系统表只能离线操作,在线VACUUM FULL系统表除了会锁表,还可能导致一些异常情况并产生报错。 如果有长查询访问系统表,此时执行VACUUM FULL,长查询可能会阻塞VACUUM FULL连接访问系统表,导致连接超时报错。
安装配置和启动GDS GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 安装配置和启动GDS操作步骤如下,详细内容请参见安装配置和启动GDS。 操作步骤 在使用GDS导入/导出数据前,请先参考教程:使用GDS从远端服务器导入数据中的步骤
online 是 Boolean 在线缩容。 type 是 String 数据库类型。 dws:标准数仓 hybrid:实时数仓 retry 否 Boolean 重试。 force_backup 是 Boolean 执行备份。
概述 GaussDB(DWS)为用户提供了一站式数据开发、接入、处理等功能的数据开发工具,即GaussDB(DWS)线上SQL编辑器,以便用户能更好的使用GaussDB(DWS)。 数据开发工具目前支持用户直接在GaussDB(DWS)管理控制台上连接集群数据库,提供数据库的各种元数据列表详情展示功能
数据开发设置 操作步骤 编辑器提供基础的设置,包含操作栏、快捷键和存储设置,如果没有对应的OBS桶,可以跳转去创建,具体操作请参见《对象存储服务控制台指南》中的创建桶章节。 登录GaussDB(DWS)管理控制台。 在左侧导航栏中,选择“数据 > SQL编辑器”。 单击“设置”按钮
集群在线扩容期间,自动增加分区会失败,但是由于每次增分区时,都预留了足够的分区,所以不影响使用。 创建ECS 参见自定义购买弹性云服务器购买。购买后,参见登录Linux弹性云服务器进行登录。
数据开发操作 元数据管理是元数据信息层级的展示,由一个树形结构组成,根目录是数据源,包括数据库、用户角色。数据库包括系统模式、用户模式和外部服务器,其中系统模式和用户模式是根据OID来区分,系统模式不能更改删除,用户模式包括普通/分区表、外表、视图、函数、序列和同义词。表包括列、约束
表4 HostOverviewResponse 参数 参数类型 描述 instance_name String 实例名称 host_name String 主机名称 host_stat String 主机状态,其中包括: ONLINE:在线 OFFLINE:离线 work_ip String
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格