检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
B(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。 需要收集的主要数据源格式信息如下: format:GDS外表导入支持CSV、TEXT和FIXED格式。请确认存放在数据服务器上待入库数据的格式。例如,待入库的数据为CSV格式。
链需求 本实践将演示从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。 GaussDB(DWS) 已经预先生成了1GB的TPC-H-1x的标准数据集,已将数据集上传到了OBS桶的t
户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。 背景信息 GDS的版本需与集群版本保持一致(如:GDS
车辆行驶路线 本实践将演示交通卡口车辆通行分析,将加载8.9亿条交通卡口车辆通行模拟数据到数据仓库单个数据库表中,并进行车辆精确查询和车辆模糊查询,展示GaussDB(DWS)对于历史详单数据的高性能查询能力。 GaussDB(DWS)已预先将样例数据上传到OBS桶的“traff
户数据及实现数据的高速导入。GDS需部署到数据服务器上。 数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。GDS在各台数据服务器上的安装配置和启动方法相同,本节以一台服务器为例进行说明。 背景信息 GDS的版本需与集群版本保持一致(如:GDS
存算一体:数据存储在计算节点的本地磁盘。 存算分离:计算节点本地盘仅做数据缓存和存储元数据,用户数据存储在OBS对象存储上。 存储类型 SSD云盘 SSD云盘:使用SSD类型的EVS作为数据存储介质,存储容量更加灵活,支持磁盘扩容。 SSD本地盘:使用ECS规格自带的本地磁盘作为数据存储介质,容量固定,性能更高,不支持磁盘扩容。
执行导出数据 前提条件 需要确保每一个CN和DN所在服务器到GDS服务器的IP和端口是互通的。 导出操作语法 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 编写批处理任务脚本,实现并发批量导出数
gdsgrp gds_user 将数据源文件均匀分发至相应数据服务器的“/input_data”目录中。 修改每台数据服务器上数据文件及数据文件目录“/input_data”的属主为gds_user。以下以IP为192.168.0.90的数据服务器为例,进行操作。 chown -R
因子,INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行,这就使得UPDATE有机会在同一页上放置同一条记录的新版本,这比把新版本放置在其他页上更有效。对于一个从不更新的表,将填充因子设为100是合适的选择,但是对于频繁更新的表,选择较小的
在使用GDS导入/导出数据前,请先参考教程:使用GDS从远端服务器导入数据中的步骤:“准备ECS作为GDS服务器”、“下载GDS工具包”。 以root用户登录待安装GDS的数据服务器,创建存放GDS工具包的目录。 mkdir -p /opt/bin/dws 将GDS工具包上传至上一步所创建的目录中。
创建MRS分析集群(选择Hive、Spark、Tez组件)。 通过将本地txt数据文件上传至OBS桶,再通过OBS桶导入Hive,并由txt存储表导入ORC存储表。 创建MRS数据源连接。 创建外部服务器。 创建外表。 通过外表导入DWS本地表。 创建MRS分析集群 登录华为云控制台,选择“大数据
需确保GDS版本和数据库内核版本都已经支持管道文件导入导出功能。 当外表参数auto_create_pipe设置为true时,GDS自动创建管道文件可能存在延迟,因此操作管道文件时建议先判断自动创建的管道文件是否存在,且是否为管道文件类型。 GDS管道文件的导入导出任务结束后会自动删除管道文件,但是手动终止任
由于DSC批量无序地读取输出文件夹,因此,建议在迁移开始后不要对输入文件夹和文件进行任何修改,这些异常操作将影响DSC的输出结果。 将所有待迁移的 SQL文件复制到输入文件夹。 如果源文件的编码格式不是UTF-8,请执行以下步骤: 打开config文件夹中的application
Studio.log中的日志将存储在Data Studio.log.1文件中。当Data Studio.log文件再次达到最大值,系统继续自动创建一个文件并另存为Data Studio.log.2。最新日志持续写入Data Studio.log文件。以此类推,此过程将一直持续,直到Data
容量和对象/文件数量没有限制。 对象:是存储在OBS中的基本数据单位。用户上传的数据以对象的形式存储在OBS的桶中。对象的属性包括名称Key,Metadata,Data。 通常,将对象等同于文件来进行管理,但是由于OBS是一种对象存储服务,并没有文件系统中的文件和文件夹概念。为了
Studio将脚本保存为SQL文件,并为该文件设置读/写权限。为了保证文件安全,用户必须获取SQL文件所在文件夹的读写权限。 如果文件有修改或关联的文件不存在,将触发“另存为”操作。 在任何情况下,如果源文件保存失败,系统向用户提供“另存为”选项。如果用户选择不另存,则文件终端退回为SQL终端。
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
customer_address; OBS外表在设计上禁止往非空的路径下导出文件,但是在并发场景下会出现同一路径导出文件的情况,此时会发生异常。 异常场景:假如用户使用同一张表的数据并发导出到同一个OBS的外表,在一条SQL语句执行在OBS服务器上没有生成文件时,另一条SQL语句也执行导出,最终
机。 (可选)准备ECS作为gsql客户端主机 购买弹性云服务器的操作步骤,请参见《弹性云服务器快速入门》中的购买并登录Linux弹性云服务器章节。 创建的弹性云服务器需要满足如下要求: 弹性云服务器需要与GaussDB(DWS)集群在相同的区域、可用分区。 如果使用GaussD