检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从OBS导入CSV、TXT数据 创建访问密钥(AK和SK) 上传数据到OBS 创建OBS外表 执行导入数据 处理导入错误 OBS导入数据示例 父主题: 从OBS并行导入数据
在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜而造成调整成本高。详细请参见查看数据倾斜状态章节。 为了优化导入速度,建议拆分文件,使用多GDS进行并行导入。单个导入任务可以拆分成多个导入任务并发执行导入;多个导入任务使用同一G
”、导入时的缓存个数以及数据缓存区大小。 如果导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引。在数据导入完成后,再重新创建索引。 操作步骤 在GaussDB(DWS)数据库中,创建目标表,用于存储从OBS导入的数据。
通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败 问题现象 MySQL 5.x版本字段长度varchar(n),用CDM同步数据到GaussDB(DWS),同样设置长度为varchar(n) ,但是会出现字段超长,数据同步失败的问题。 原因分析 MySQL5
数据。 假设OBS数据服务器与集群网络连接正常,OBS数据服务器IP为xxx.xxx.x.xx,数据源文件格式为CSV,规划的并行导入与示例保持一致。 其中设置的导入信息如下所示: 由于OBS服务器上的数据源文件存放目录为“/input-data1/data/ ”和“/input-data2/data/
非数据格式错误 对于非数据格式错误,一旦发生将导致整个数据导入失败,不会写入错误表。您可以根据执行数据导入过程中,界面提示的错误信息,帮助定位问题,处理错误表。 处理数据导入错误 根据获取的错误信息,请对照下表,处理数据导入错误。 表2 处理数据导入错误 错误信息 错误类型 原因 解决办法 missing
数据导入/导出 使用COPY FROM导入时报错“invalid byte sequence for encoding "UTF8": 0x00” GDS导入/导出类问题 创建GDS外表失败,提示不支持ROUNDROBIN 通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败
在GaussDB(DWS)中创建目标表,用于存储导入的数据。建表语句请参见CREATE TABLE。 (可选)若导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引,但是如果不能保证数据唯一性不建议删除唯一索引。在数据导入完成后,再重新创建索引。
如果用户数据无法以CSV格式保存,可以选择以文本类型保存为其他任意格式后缀的文件。 根据导入数据原理,当数据源文件的数据量较大时,将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件数量为DataNode的整数倍时,导入性能更好。 假设您已将3个CSV数据文件存储在OBS上,其原始数据分别如下:
转换规则转换后入库,还是报错中止导入。 取值范围:true/on,false/off。 参数为true/on,则导入时遇到非法字符进行容错处理,非法字符转换后入库,不报错,不中断导入。 参数为false/off,导入时遇到非法字符进行报错,中断导入。 缺省值:false/off。
详细请参见创建OBS外表。 - 执行导入数据 在创建好外表后,通过INSERT语句,将数据快速、高效地导入到目标表中。 详细请参见执行导入数据。 - 处理错误表 在数据并行导入发生错误时,请根据错误信息,处理导入错误,以保证导入数据的完整性。 - 优化查询效率 导入数据后,通过ANALYZE
使用该命令进行数据的导入/导出。但是与SQL的COPY命令不同,该命令读取/写入的文件是本地文件,而非数据库服务器端文件;所以,要操作的文件的可访问性、权限等,都是受限于本地用户的权限。 说明: \COPY只适合小批量,格式良好的数据导入,容错能力较差。导入数据应优先选择GDS或COPY。
数据文件是否包含标题行(header)为默认值false,即导入时数据文件第一行被识别为数据。 设置导入容错性如下所示: 允许出现的数据格式错误个数(PER NODE REJECT LIMIT 'value')为unlimited,即接受导入过程中所有数据格式错误。 将数据导入过程中出现的数据格式错误信息(LOG
EATE DATABASE命令中特别指定。其它区域分类可以在任何时候被更改,更改的方式是设置与区域分类同名的服务器配置参数。被initdb选中的值实际上只是被写入到配置文件postgresql.conf中作为服务器启动时的默认值。如果你将这些赋值从postgresql.conf中
关于GDS并行导入 INSERT和COPY方式执行数据导入时,是一个串行执行的过程,导入性能低,因此适用于小数据量的导入。对于大数据量的导入,GaussDB(DWS)支持使用GDS工具通过外表并行导入数据到集群。 当前版本的GDS已经支持从管道文件导入数据库,该功能使GDS的导入更加灵活多变。
GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。 在本教程中,您将: 生成本教程需要使用的CSV格式的数据源文件。 将数据源文件上传到数据服务器。 创建外表,用于对接GDS和GaussDB(DWS),将数据服务器上的数据导入到GaussDB(DWS)集群中。
导入 GS_142010105 错误码: out of memory. 解决方案:1.请确保CSV文件中的引号是成对的。 2.请检查报价选项是否合理。 3.检查单行数据是否超过1GB。您可以根据实际情况手动删除该行。 level: ERROR GS_142050163 错误码: connection
转换规则转换后入库,还是报错中止导入。 取值范围:true/on,false/off。 参数为true/on,则导入时遇到非法字符进行容错处理,非法字符转换后入库,不报错,不中断导入。 参数为false/off,导入时遇到非法字符进行报错,中断导入。 缺省值:false/off。
置相关密钥。 删除访问密钥时,需要输入登录密码和邮箱或者手机验证码进行验证。 删除的访问密钥将永久删除且无法恢复。 父主题: 从OBS导入CSV、TXT数据
CopyManager是GaussDB(DWS) JDBC驱动中提供的一个API接口类,用于批量向GaussDB(DWS)集群中导入数据。 CopyManager的继承关系 CopyManager类位于org.postgresql.copy Package中,继承自java.lang.Object类,该类的声明如下: