检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从MRS导入数据到集群 从MRS导入数据概述 MRS集群上的数据准备 手动创建外部服务器 创建外表 执行数据导入 清除资源 父主题: 导入数据
导入数据 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群 基于GDS的跨集群互联互通 使用开源Kettle导入数据 使用gsql元命令\COPY导入数据 使用COPY FROM STDIN导入数据
为保证业务低时延,建议将业务应用和DWS都部署在同一个区域内。例如业务应用部署在ECS,建议将DWS集群部署在跟ECS在同一个虚拟私有云(以下简称VPC)下,如果DWS集群选择了不同的VPC,则ECS与DWS无法直接连通。 例如ECS和DWS都部署在“北京四”下,但是ECS在VPC1下,DWS
每个任务可能是一个进程或一个线程,这由操作系统决定;每个任务与服务器进行单独连接。 该选项的最优值取决于服务器的硬件设置、客户端、以及网络。还包括这些因素,如CPU核数量、硬盘设置。建议是从增加服务器上的CPU核数量入手,更大的值(服务器上CPU核数量)在很多情况下也能导致数据文件更快的被导入。需要注意,过高的值会由于超负荷反而导致性能降低。
数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。 准备环境 已创建DWS集群,需确保MRS和DWS集群在同一个区域、可用区、同一VPC子网内,确保集群网络互通。 创建MRS分析集群 登录华为云控制台,选择“大数据 > MapRedu
Explorer,选择“大数据>数据仓库服务”,进入DWS OpenAPI页面。 根据需求选择具体OpenAPI接口,切换至“代码示例”页签,选择指定编程语言,单击“华为云SDK”查看对应编程语言类型的SDK代码。GaussDB(DWS)支持的SDK列表请参见表1。 图1 获取SDK代码示例
使用GDS从远端服务器导入数据 本教程旨在演示使用GDS(General Data Service)工具将远端服务器上的数据导入GaussDB(DWS)中的办法,帮助您学习如何通过GDS进行数据导入的方法。 GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。
MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。具体信息可参考《MapReduce服务用户指南》。 用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive
准备工作 在迁移之前必须先创建输入文件夹和输出文件夹,并将待迁移的所有SQL脚本复制到输入文件夹中。Linux系统操作如下: 创建输入和输出文件夹。您可以根据用户的首选项在任意位置创建文件夹。用户也可以使用默认的文件夹作为输入、输出,作为包的一部分提供。 1 2 mkdir input
导入导出 导入数据最佳实践 GDS实践指南 迁移OBS桶数据至GaussDB(DWS)集群 使用GDS从远端服务器上导入表数据到GaussDB(DWS)集群 从MRS Hive导入表数据到GaussDB(DWS)集群 使用EXTERNAL SCHEMA跨集群访问HiveMetaStore元数据
GDS工具 它是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导入导出。 GDS工具包需要安装在数据源文件所在的服务器上,数据源文件所在的服务器称为数据服务器,也称为GDS服务器。 DSC SQL语法迁移工具 DSC(Database Schema
钥,您需要手动退订和删除密钥才能停止计费,否则将继续计费。您可以登录数据加密服务控制台,在“数据加密服务 > 密钥对管理”页面删除相应的密钥。 表2 已停止的集群计费项说明 计费模式 数仓类型 计费项 停止是否计费 按需 直通盘(存算一体) 节点 是 云盘虚拟机(存算分离) 节点
错误原因:复制数据到标准输入时,发生连接故障。 解决办法:请检查客户端与服务器端连接线程是否正常。 GAUSS-01155: "COPY from stdin failed: %s" SQLSTATE: 57014 错误原因:从标准输入中复制数据失败。 解决办法:请检查客户端与服务器端连接线程是否正常。 GAUSS-01156:
最小内存 1 GB 磁盘空间 1 GB 软件要求 操作系统要求 DSC兼容的操作系统如表4所示。 表4 兼容的操作系统 服务器 操作系统 版本 通用x86服务器 SUSE Linux Enterprise Server 11 SP1(SUSE11.1) SP2(SUSE11.2)
GS_226100025 错误码: invalid combination of date conventions. 解决方案:不要在格式模板中混合公历和ISO周日期约定。 level: ERROR GS_226100032 错误码: hour \%d\ is invalid for the 12-hour
S是DLI的终端节点(Endpoint),请根据实际替换。 ACCESS_KEY和SECRET_ACCESS_KEY 是云账号体系访问OBS服务的密钥。请根据实际替换。 DLI_ACCESS_KEY和DLI_SECRET_ACCESS_KEY是云账号体系访问DLI服务的密钥。请根据实际替换。
MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。 用户可以将海量业务数据,存储在MRS的分析集
INTO用于根据查询结果创建一个新表,并且将查询到的数据插入到新表中。 数据并不返回给客户端,这一点和普通的SELECT不同。新表的字段具有和SELECT的输出字段相同的名字和数据类型。 注意事项 CREATE TABLE AS的作用和SELECT INTO类似,且提供了SELECT INTO所提供功能的超集。建议使用CREATE
询 仅Teradata支持的对象:包含BTEQ和SQL_LANG脚本的Perl文件 迁移流程 DSC迁移sql脚本流程如下: 从Teradata或MySQL数据库导出待迁移的sql脚本到已安装了DSC的Linux或Windows服务器。 执行DSC命令进行语法迁移,命令中指定输入文件路径、输出文件路径以及日志路径。
x或Windows服务器并解压。 执行加密命令对源端/目标端数据库登录密码进行加密。 配置dbinfo.properties文件,包含源数据库和目标数据库的相关连接信息以及函数开关信息。 编辑check_input.xlsx文件,输入schema、源数据库表名和dws表名以及校验级别等参数。