检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源文件:存储有数据的TEXT、CSV文件。 OBS:对象存储服务,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务。从GaussDB(DWS)并行导出数据时,数据对象放置在OBS服务器上。 桶(Bucket):对OBS中的一个存储空间的形象称呼,是存储对象的容器。 对象
创建弹性云服务器ECS和数据仓库GaussDB(DWS) 创建弹性云服务器ECS 创建数据仓库GaussDB(DWS) 父主题: 测试方法
参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格 参数项 参数取值 区域 华北-北京4 可用区
foreign_product_info; 删除手动创建的外部服务器 如果执行了手动创建外部服务器,请按照以下步骤删除外部服务器、数据库和用户。 使用创建外部服务器的用户通过GaussDB(DWS)提供的数据库客户端连接到外部服务器所在的数据库。 例如,使用gsql客户端的用户可以通过以下两种方法中的一种进行连接:
ONDATA格式的数据并行导入到GaussDB(DWS),支持导入后查询数据,也支持远程读OBS上的数据。 GaussDB(DWS)优先推荐的导入方式。 并行拉取方式,性能好,横向扩展。 使用GDS从远端服务器导入数据 Servers(即远端服务器) 使用GaussDB(DWS)
创建MRS分析集群(选择Hive、Spark、Tez组件)。 通过将本地txt数据文件上传至OBS桶,再通过OBS桶导入Hive,并由txt存储表导入ORC存储表。 创建MRS数据源连接。 创建外部服务器。 创建外表。 通过外表导入DWS本地表。 创建MRS分析集群 登录华为云控制台,选择“大数据
ata”。 上传文件。 具体请参见《对象存储服务快速入门》的上传对象章节。 例如: 将以下数据文件上传到OBS桶“mybucket”的“input_data”目录中。 1 2 product_info0.csv product_info1.csv 将以下数据文件上传到OBS桶“
导出ORC数据到MRS 导出ORC数据概述 规划导出数据 创建外部服务器 创建外表 执行导出 父主题: 导出数据
ID作为参数,标识需要报告的数据库;针对某个服务器进行访问的函数,以一个服务器进程号为参数,其范围从1到当前活跃服务器的数目。 pg_stat_get_db_numbackends(oid) 描述:查询当前实例上指定数据库活跃的服务器线程数目。 返回值类型:integer pg_
ID作为参数,标识需要报告的数据库;针对某个服务器进行访问的函数,以一个服务器进程号为参数,其范围从1到当前活跃服务器的数目。 pg_stat_get_db_numbackends(oid) 描述:查询当前实例上指定数据库活跃的服务器线程数目。 返回值类型:integer pg_
type_name:字段的数据类型。 多个字段用“,”隔开。 SERVER dfs_server 外表的外部服务器名称,这个server必须存在。外表通过设置外部服务器连接OBS/HDFS读取数据。 此处应参考创建外部服务器中创建的外部服务器名称填写。 OPTIONS参数 用于指定外表数据的各类参数,关键参数如下所示。
D作为参数,标识需要报告的数据库。 针对某个服务器进行访问的函数,以一个服务器进程号为参数,其范围从1到当前活跃服务器的数目。 pg_stat_get_db_numbackends(oid) 描述:查询当前实例上指定数据库活跃的服务器线程数目。 返回值类型:integer pg_
单击“下一步”,单击“确定”。队列创建成功。 上传源数据到OBS桶。 已创建OBS桶,桶名自定义,例如dli-obs01(如果桶名已被占用,可设为dli-obs02,依次叠加),区域选择华北-北京四。 下载数据样例文件。 在OBS桶中,新建文件夹dli_order,并将下载好的数据文件上传到dli_order目录下。
从MRS导入数据到集群 从MRS导入数据概述 MRS集群上的数据准备 手动创建外部服务器 创建外表 执行数据导入 清除资源 父主题: 导入数据
说明。 SERVER dfs_server 外表的外部服务器名称,这个server必须存在。外表通过设置外部服务器,从而关联MRS数据源连接并从MRS集群读取数据。 此处应填写为通过获取MRS数据源连接的外部服务器信息查询到的“srvname”字段的值。 OPTIONS参数 用于
PG_FOREIGN_SERVER PG_FOREIGN_SERVER系统表存储外部服务器定义。一个外部服务器描述了一个外部数据源,例如一个远程服务器。外部服务器通过外部数据封装器访问。 表1 PG_FOREIGN_SERVER字段 名字 类型 引用 描述 oid oid - 行
PG_FOREIGN_SERVER PG_FOREIGN_SERVER系统表存储外部服务器定义。一个外部服务器描述了一个外部数据源,例如一个远程服务器。外部服务器通过外部数据封装器访问。 表1 PG_FOREIGN_SERVER字段 名字 类型 引用 描述 oid oid - 行
PG_FOREIGN_SERVER PG_FOREIGN_SERVER系统表存储外部服务器定义。一个外部服务器描述了一个外部数据源,例如一个远程服务器。外部服务器通过外部数据封装器访问。 表1 PG_FOREIGN_SERVER字段 名字 类型 引用 描述 oid oid - 行
文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量以DN的整数倍更适合。 图1 通过OBS外表并行导入数据 导入流程图 图2 并行导入流程 表1 流程说明 流程 说明 子任务 上传数据至OBS 在OBS服务器上规划存储路径,并上传数据文件。 详细请参见上传数据到OBS。
的协议标准,它们加入了数字签名和数字证书来实现客户端和服务器的双向身份验证,保证了通信双方更加安全的数据传输。为支持SSL连接方式,GaussDB(DWS)已经从CA认证中心申请到正式的服务器、客户端的证书和密钥(假设服务器的私钥为server.key,证书为server.crt,客户端的私钥为client