检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从MRS导入数据概述 MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。具体信息可参考《MapReduce服务用户指南》。 用户可以将海
查看数据倾斜状态 操作场景 数据倾斜会造成查询表性能下降。对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 背景信息 GaussDB(DWS)是采用Shared-nothing架构的MPP(Massive
创建并下载访问密钥。 梳理待导入数据的格式信息,确定创建外表时使用的数据格式参数的值。需要收集的主要数据源格式信息如下: format:外表中数据源文件的格式。OBS外表导入支持CSV、TEXT格式。缺省值为TEXT。 header:指定导出数据文件是否包含标题行,header只能用于CSV格式的文件中。
准备源数据 操作场景 通常在将数据导入数据库前,即将入库的数据已经在相关主机上了。这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。
操作场景 当数据导入发生错误时,请根据本文指引信息进行处理,错误表只能记录数据格式错误。 查询错误信息 数据导入过程中发生的错误,一般分为数据格式错误和非数据格式错误。 数据格式错误 在创建外表时,通过设置参数“LOG INTO error_table_name”,将数据导入过程中
未经INDEPENDENT角色授权,管理员无权对其表对象进行增、删、查、改、拷贝、授权操作。 未经INDEPENDENT角色授权,管理员无权修改INDEPENDENT角色的继承关系。 管理员无权修改INDEPENDENT角色的表对象的属主。 管理员无权修改INDEPENDENT角色的数据库口令,INDEPEN
“dataencoding” 在数据库编码与数据表的数据编码不一致时,该参数用于指定导出数据表的数据编码。比如数据库编码为Latin-1,而导出的数据表中的数据为UTF-8编码。此选项为可选项,如果不指定该选项,默认采用数据库编码。此语法仅对HDFS的WRITE ONLY外表有效。 取值范围:该数据库编码支持转换的数据编码。
product_price>500; 在需要执行多次数据导出时,导出数据的存放路径必须为空,否则将导出失败。 对于特殊的数据类型如RAW类型,在导出之后是一个二进制文本,导入工具无法识别。需使用RAWTOHEX()函数将其转换为16进制文本导出。 父主题: 导出CSV、TXT数据到OBS
OPTIONS参数 address 指定OBS服务的终端节点。 address的获取方法如下: 先通过OBS上的数据准备中的2获取OBS路径。 在OBS上查看到的OBS路径,为OBS服务终端节点(Endpoint):obs.example.com。 访问密钥(AK和SK)(必选) G
------ (0 rows) 删除数据库及其所属的用户 如果您执行了(可选)新建用户及数据库并授予外表权限中的步骤,请参照以下步骤删除数据库及其所属的用户。 删除自定义数据库。 通过GaussDB(DWS)提供的数据库客户端连接默认数据库gaussdb。 如果已经登录了gsq
“foldername”:必选参数。数据源文件的OBS路径,此处仅需要填写“/桶名/文件夹目录层级/”。 可以先通过OBS上的数据准备中的2获取数据源文件的完整的OBS路径,该路径为OBS服务的终端节点(Endpoint)。 “totalrows”:可选参数。该参数不是导入的总行数。由于OBS上文件可能很
如何与DWS进行通信? 业务应用与DWS进行通信的基本原则是确保业务应用所在网络与DWS的网络能连通,以下是当前主流连接场景,请根据实际情况进行选择。 表1 如何与DWS进行通信 场景 通信方式 支持的连接方式 云上 业务应用与DWS在同一个区域内同一个VPC下 同一个VPC的两个内网IP直接通信。
location 在规划导出数据中,通过获取数据源文件的OBS路径已经获取到数据源文件的OBS路径。 因此,设置参数“location”为: location 'obs://mybucket/output_data/', 访问密钥(AK和SK) 用户获取OBS访问协议对应的AK值(access_key)。
其他操作 GDS管道文件常见问题 查看数据倾斜状态 分析表
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
实时入库 Kafka实时入库到GaussDB(DWS)
整库迁移 使用CDM迁移数据到GaussDB(DWS) 使用DSC工具迁移SQL脚本
对应关系及其它参数。“DWS表输出”控制对应的数据源只支持PostgreSQL。 保存转换任务,并启动任务。 查看运行结果,去目标数据表检查搬迁数据总数和明细数据是否与需要搬迁的数据一致。 父主题: 导入数据
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件