检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除数据库及其所属的用户 如果您执行了(可选)新建用户及数据库并授予外表权限中的步骤,请删除数据库及其所属的用户。 删除外表和目标表 (可选)如果执行了导入数据后查询数据,请执行以下命令,删除目标表。 1 DROP TABLE product_info; 当结果显示为如下信息,则表示删除成功。
关于GDS并行导入 INSERT和COPY方式执行数据导入时,是一个串行执行的过程,导入性能低,因此适用于小数据量的导入。对于大数据量的导入,GaussDB(DWS)支持使用GDS工具通过外表并行导入数据到集群。 当前版本的GDS已经支持从管道文件导入数据库,该功能使GDS的导入更加灵活多变。
可以先通过OBS上的数据准备中的2获取数据源文件的完整的OBS路径,该路径为OBS服务的终端节点(Endpoint)。 “totalrows”:可选参数。该参数不是导入的总行数。由于OBS上文件可能很多,执行analyze可能会很慢,通过“totalrows”参数,让用户来设置一个预估的值,使优化器能通过
2 为导入用户设置OBS桶的读取权限。 在从OBS导入数据到集群时,执行导入操作的用户需要取得数据源文件所在OBS桶的读取权限。通过配置桶的ACL权限,可以将读取权限授予指定的用户账号。 具体请参见《对象存储服务控制台指南》中的配置桶ACL章节。 父主题: 从OBS导入CSV、TXT数据
转换规则转换后入库,还是报错中止导入。 取值范围:true/on,false/off。 参数为true/on,则导入时遇到非法字符进行容错处理,非法字符转换后入库,不报错,不中断导入。 参数为false/off,导入时遇到非法字符进行报错,中断导入。 缺省值:false/off。
的结果,在高精度要求场景下建议使用DECIMAL类型代替。 兼容Teradata数据库模式下,外表不支持DATE类型。 父主题: 从OBS导入ORC、CARBONDATA数据
创建GDS外表并导入TPC-DS数据 本文介绍如何通过GDS外表导入TPC-DS 1000x数据,表1列出了TPC-DS测试数据集中的表数据行数。 TPC-H请跳过本章节。 表数据行数 表1 TPC-DS 序号 表名 行数 1 customer_address 6,000,000
db/product_info_orc/”目录中。 如果数据文件已经在OBS上了,请执行获取源数据的OBS路径并设置读取权限中的步骤。 本小节以导入ORC格式为例,CARBONDATA数据的导入方法与ORC格式相似。 原始数据 假设您已将2个ORC数据文件存储在OBS上,其原始数据分别如下: 数据文件“product_info
secret_access_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx} (1 row) 父主题: 从OBS导入ORC、CARBONDATA数据
创建GDS外表并导入TPC-H数据 本文介绍如何通过GDS外表导入TPC-H 1000x数据,表1列出了TPC-H测试数据集中的表数据行数。 TPC-DS请跳过本章节。 表数据行数 表1 TPC-H 序号 表名 行数 1 region 5 2 nation 25 3 supplier
使用开源Kettle导入数据 Kettle是一款开源的ETL工具,通过Kettle工具可以完成数据的抽取、转换、装入和加载。 海量数据搬迁场景下,使用Kettle自身提供的数据入库插件,入库速度在1500条/秒左右,数据搬迁耗时较高。而相同运行环境下,使用集成dws-client
查询结果显示与原始数据显示相同,则表示导入成功。查询结果的结尾将显示以下信息: 1 (10 rows) 通过外表查询到数据后,用户可以将数据插入数据库的普通表。 导入数据后查询数据 在GaussDB(DWS)数据库中,创建导入数据的目标表,用于存储导入的数据。 该表的表结构必须与创建
从OBS并行导入数据 关于OBS并行导入 从OBS导入CSV、TXT数据 从OBS导入ORC、CARBONDATA数据 父主题: 导入数据
从MRS导入数据到集群 从MRS导入数据概述 MRS集群上的数据准备 手动创建外部服务器 创建外表 执行数据导入 清除资源 父主题: 导入数据
使用COPY FROM STDIN导入数据 关于COPY FROM STDIN导入数据 CopyManager类简介 父主题: 导入数据
GDS导入失败后,磁盘占用空间增大 问题背景与现象 使用GDS导入数据失败,触发作业重跑。重新开始数据导入,完成导入作业后查看磁盘空间,发现磁盘占用空间比导入数据量大很多。 原因分析 在导入数据失败后,占用的磁盘空间没有释放。 解决办法 检测GDS导入作业的日志,查看是否有执行失败的现象。
GDS方式导入 安装和启动GDS 使用gsql连接DWS 创建GDS外表并导入TPC-H数据 创建GDS外表并导入TPC-DS数据 父主题: 建表与数据导入
使用该命令进行数据的导入/导出。但是与SQL的COPY命令不同,该命令读取/写入的文件是本地文件,而非数据库服务器端文件;所以,要操作的文件的可访问性、权限等,都是受限于本地用户的权限。 说明: \COPY只适合小批量,格式良好的数据导入,容错能力较差。导入数据应优先选择GDS或COPY。
创建MRS分析集群(选择Hive、Spark、Tez组件)。 通过将本地txt数据文件上传至OBS桶,再通过OBS桶导入Hive,并由txt存储表导入ORC存储表。 创建MRS数据源连接。 创建外部服务器。 创建外表。 通过外表导入DWS本地表。 创建MRS分析集群 登录华为云控制台,选择“大数据 > MapRe
导入导出 导入数据最佳实践 GDS实践指南 迁移OBS桶数据至GaussDB(DWS)集群 使用GDS从远端服务器上导入表数据到GaussDB(DWS)集群 从MRS Hive导入表数据到GaussDB(DWS)集群 使用EXTERNAL SCHEMA跨集群访问HiveMetaStore元数据