检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GDS导入失败后,磁盘占用空间增大 问题背景与现象 使用GDS导入数据失败,触发作业重跑。重新开始数据导入,完成导入作业后查看磁盘空间,发现磁盘占用空间比导入数据量大很多。 原因分析 在导入数据失败后,占用的磁盘空间没有释放。 解决办法 检测GDS导入作业的日志,查看是否有执行失败的现象。
数据导入/导出 使用COPY FROM导入时报错“invalid byte sequence for encoding "UTF8": 0x00” GDS导入/导出类问题 创建GDS外表失败,提示不支持ROUNDROBIN 通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败
通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败 问题现象 MySQL 5.x版本字段长度varchar(n),用CDM同步数据到GaussDB(DWS),同样设置长度为varchar(n) ,但是会出现字段超长,数据同步失败的问题。 原因分析 MySQL5
导入数据最佳实践 从OBS并行导入数据 将导入数据拆分为多个文件 导入大数据量的数据时,通常需要较长的时间及耗费较多的计算资源。 从OBS上导入数据时,如下方法可以提升导入性能:将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量为DN的整数倍更适合。 在导入前后验证数据文件
GDS导入/导出类问题 GDS导入/导出容易遇到字符集的问题,特别是不同类型的数据库或者不同编码类型的数据库进行迁移的过程中,往往会导致数据入不了库,严重阻塞数据迁移场景相关业务。 区域支持 区域支持指的是应用遵守文化偏好的问题,包括字母表、排序、数字格式等。区域是在使用init
假设OBS数据服务器与集群网络连接正常,OBS数据服务器IP为xxx.xxx.x.xx,数据源文件格式为CSV,规划的并行导入与示例保持一致。 其中设置的导入信息如下所示: 由于OBS服务器上的数据源文件存放目录为“/input-data1/data/ ”和“/input-data2/data/
创建GDS外表失败,提示不支持ROUNDROBIN 问题现象 创建GDS外表失败,提示不支持ROUNDROBIN,报错信息如下所示: 1 ERROR: For foreign table ROUNDROBIN distribution type is built-in support
出现数据格式错误的数据源文件名。 rownum bigint 在数据源文件中,出现数据格式错误的行号。 rawrecord text 在数据源文件中,出现数据格式错误的原始记录。 detail text 详细错误信息。 非数据格式错误 对于非数据格式错误,一旦发生将导致整个数据导入失败,不会写入
数据库普通表:数据库中的普通表,数据源文件中的数据最终并行导入到这些表中存储,包括行存表、列存表。 外表:用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、编码格式、数据间的分隔符等信息。 导入数据原理 OBS导入原理如图1所示,CN负责任务的规划及下发,它是按文件给每个DN节点分配任务的。
NDATA格式的数据源文件。 如果用户数据无法以CSV格式保存,可以选择以文本类型保存为其他任意格式后缀的文件。 根据导入数据原理,当数据源文件的数据量较大时,将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件数量为DataNode的整数倍时,导入性能更好。 假设您已将
存储在HDFS文件系统上的数据导入GaussDB(DWS)。 并行导入功能通过外表设置的导入策略、导入数据格式等信息来识别数据源文件,利用多DN并行的方式,将数据从数据源文件导入到数据库中,从而提高整体导入性能。如图1所示: CN只负责任务的规划及下发,把数据导入的工作交给了DN
”、导入时的缓存个数以及数据缓存区大小。 如果导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引。在数据导入完成后,再重新创建索引。 操作步骤 在GaussDB(DWS)数据库中,创建目标表,用于存储从OBS导入的数据。
SV格式的文件中。 delimiter:指定数据文件行数据的字段分隔符,不指定则使用默认分隔符。 外表可以识别的更多参数,详细使用请参见数据格式参数 。 规划并行导入容错性,以控制导入过程中处理错误的方式。 fill_missing_fields:数据入库时,数据源文件中某行的最
非数据格式错误 对于非数据格式错误,一旦发生将导致整个数据导入失败,不会写入错误表。您可以根据执行数据导入过程中,界面提示的错误信息,帮助定位问题,处理错误。 处理数据导入错误 根据获取的错误信息,请对照下表,处理数据导入错误。 表2 处理数据导入错误 错误信息 错误类型 原因 解决办法 missing
或“虚拟专用网络(VPN)”打通网络,请参见对应服务的用户指南。 从MRS导入数据到集群的流程 MRS集群上的数据准备 (可选)手动创建外部服务器 创建外表 执行数据导入 清除资源 父主题: 从MRS导入数据到集群
11111111111111 4 | 2 | 11111111111111 (4 rows) 多进程管道文件导入 GDS支持多进程管道文件导入, 即启动一个外表对应多个GDS。 以本地文件的导入为例: 启动多个GDS,如果已经启动跳过此步骤: /opt/bin/dws/gds/bin/gds
查询结果显示如数据文件中所示的数据,表示导入成功。查询结果的结尾将显示以下信息: (20 rows) 通过外表查询到数据后,用户可以将数据插入数据库的普通表。 导入数据后查询数据 也可以将MRS数据导入GaussDB(DWS)后,再查询数据。 在GaussDB(DWS)数据库中,创建导入数据的目标表,用于存储导入的数据。
支持的数据类型 目前大数据领域,主流文件格式为ORC。GaussDB(DWS)主要支持ORC文件格式。用户利用HIVE将数据导出存储为ORC文件格式,使用GaussDB(DWS)通过只读外表对ORC文件内的数据进行查询分析,因此,需要在ORC文件格式支持的数据类型与GaussDB(
在GaussDB(DWS)中创建目标表,用于存储导入的数据。建表语句请参见CREATE TABLE。 (可选)若导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引,但是如果不能保证数据唯一性不建议删除唯一索引。在数据导入完成后,再重新创建索引。
导入 GS_142010105 错误码: out of memory. 解决方案:1.请确保CSV文件中的引号是成对的。 2.请检查报价选项是否合理。 3.检查单行数据是否超过1GB。您可以根据实际情况手动删除该行。 level: ERROR GS_142050163 错误码: connection