检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从MRS导入数据概述 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。具体信息可参考《MapReduce服务用户指南》。 用户可以将海
实时入库 Kafka实时入库到GaussDB(DWS)
OBS上的数据准备 操作场景 使用SQL on OBS功能查询OBS数据之前: 已将ORC数据存储在OBS上。 例如,在使用Hive或Spark等组件时创建了ORC表,其表数据已经存储在OBS上的场景。 假设有2个ORC数据文件“product_info.0”和“product_info
导出操作语法: 执行数据导出语法: 1 INSERT INTO [foreign table 表名] SELECT * FROM [源表名]; 执行导出数据示例 示例1:将表product_info_output的数据通过外表product_info_output_ext导出到数据文件中。
缓存个数以及数据缓存区大小。 如果导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引。在数据导入完成后,再重新创建索引。 操作步骤 在GaussDB(DWS)数据库中,创建目标表,用于存储从OBS导入的数据。 目标表的
导出CSV、TXT数据到OBS 规划导出数据 创建OBS外表 执行导出 示例 父主题: 导出数据到OBS
导出ORC数据到OBS 规划导出数据 创建外部服务器 创建外表 执行导出 父主题: 导出数据到OBS
当您通过GaussDB(DWS)管理控制台创建MRS数据源连接时,数据库管理员dbadmin会在默认数据库postgres中自动创建一个外部服务器。因此,如果使用数据库管理员dbadmin在默认数据库postgres中创建外表,需要通过GaussDB(DWS)提供的数据库客户端工具连接数据库。例如,使用gsql客户端的用户通过如下命令连接数据库:
息。 Data:对象的数据内容,OBS对于数据的内容是无感知的,即认为对象内的数据为无状态的二进制数据。 数据库普通表:数据库中的普通表,数据源文件中的数据最终并行导入到这些表中存储,包括行存表、列存表。 外表:用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、编码格式、数据间的分隔符等信息。
上传数据到OBS 操作场景 从OBS导入数据到集群之前,需要提前准备数据源文件,并将数据源文件上传到OBS。如果您的数据文件已经在OBS上了,则只需完成上传数据到OBS中的2~3。 准备数据文件 准备需要上传到OBS的数据源文件。GaussDB(DWS)只支持CSV、TEXT、O
停止GDS GDS是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导出。 当不在使用GDS时,可通过以下步骤停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“g
(20 rows) 通过外表查询到数据后,用户可以将数据插入数据库的普通表。 导入数据后查询数据 也可以将MRS数据导入GaussDB(DWS)后,再查询数据。 在GaussDB(DWS)数据库中,创建导入数据的目标表,用于存储导入的数据。 该表的表结构必须与创建外表中创建的
从OBS导入ORC、CARBONDATA数据 OBS上的数据准备 创建外部服务器 创建外表 通过外表查询OBS上的数据 清除资源 支持的数据类型 父主题: 从OBS并行导入数据
rows) 删除自定义数据库。 通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。 如果已经登录了gsql客户端,可以直接执行如下命令进行切换: 1 \c postgres 根据界面提示输入密码。 执行以下命令,删除自定义数据库: 1 DROP DATABASE
使用DLI Flink作业实时同步MySQL数据至(GaussDB)DWS集群 本实践演示如何使用华为云DLI服务的Flink作业,将MySQL数据实时同步到GaussDB(DWS)。 了解DLI请参见数据湖产品介绍。 本实践预计时长60分钟,实践用到的云服务包括虚拟私有云 VPC及子网、云数据库
使用CDM迁移数据到GaussDB(DWS) 使用云数据迁移服务(Cloud Data Migration,简称CDM),可以将其他数据源(例如MySQL)的数据迁移到GaussDB(DWS) 集群的数据库中。 使用CDM迁移数据到GaussDB(DWS)的典型场景,请参见云数据迁移服务(简称CDM)的如下章节:
件中。 在导入数据时,如果header选项为on,则数据文本第一行会被识别为标题行,会忽略此行。如果header为off,而数据文件中第一行会被识别为数据。 在导出数据时,如果header选项为on,则需要指定fileheader。fileheader是指定导出数据包含标题行的定
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
customer_address_ext用于接收数据服务器上的数据。 假设OBS数据服务器与集群网络连接正常,OBS数据服务器IP为xxx.xxx.x.xx,数据源文件格式为CSV,规划的并行导入与示例保持一致。 其中设置的导入信息如下所示: 由于OBS服务器上的数据源文件存放目录为“/input-data1/data/
执行以下命令启动Hive客户端: beeline 在Hive中创建数据库demo。 执行以下命令创建数据库: CREATE DATABASE demo; 在数据库demo中新建了一个Hive TEXTFILE类型的表product_info,并将数据文件(product_info.txt)导入到该表对应的HDFS路径中。