检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
示例:通过本地文件导入导出数据 在使用JAVA语言基于GaussDB(DWS)进行二次开发时,可以使用CopyManager接口,通过流方式,将数据库中的数据导出到本地文件或者将本地文件导入数据库中,文件格式支持CSV、TEXT等格式。 样例程序如下,执行时需要加载GaussDB(DWS)
导入数据最佳实践 从OBS并行导入数据 将导入数据拆分为多个文件 导入大数据量的数据时,通常需要较长的时间及耗费较多的计算资源。 从OBS上导入数据时,如下方法可以提升导入性能:将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量为DN的整数倍更适合。 在导入前后验证数据文件
数据导入/导出 使用COPY FROM导入时报错“invalid byte sequence for encoding "UTF8": 0x00” GDS导入/导出类问题 创建GDS外表失败,提示不支持ROUNDROBIN 通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败
GDS导入/导出类问题 GDS导入/导出容易遇到字符集的问题,特别是不同类型的数据库或者不同编码类型的数据库进行迁移的过程中,往往会导致数据入不了库,严重阻塞数据迁移场景相关业务。 区域支持 区域支持指的是应用遵守文化偏好的问题,包括字母表、排序、数字格式等。区域是在使用init
假设OBS数据服务器与集群网络连接正常,OBS数据服务器IP为xxx.xxx.x.xx,数据源文件格式为CSV,规划的并行导入与示例保持一致。 其中设置的导入信息如下所示: 由于OBS服务器上的数据源文件存放目录为“/input-data1/data/ ”和“/input-data2/data/
尾的残留文件记录文件。这是因为以9438结尾的残留文件记录文件中只有一条残留文件记录,这条记录在步骤3中被删除,当记录文件中的所有残留文件都被删除后,记录文件本身也会被删除,并备份到pg_residualfiles/backup目录中: 如果需要删除db2数据库中的文件,需要在d
尾的残留文件记录文件。这是因为以9438结尾的残留文件记录文件中只有一条残留文件记录,这条记录在步骤3中被删除,当记录文件中的所有残留文件都被删除后,记录文件本身也会被删除,并备份到pg_residualfiles/backup目录中: 如果需要删除db2数据库中的文件,需要在d
尾的残留文件记录文件。这是因为以9438结尾的残留文件记录文件中只有一条残留文件记录,这条记录在步骤3中被删除,当记录文件中的所有残留文件都被删除后,记录文件本身也会被删除,并备份到pg_residualfiles/backup目录中: 如果需要删除db2数据库中的文件,需要在d
row) 本函数只能验证记录的文件在当前登录的数据库中是否是残留文件。如果记录的文件不属于当前登录的数据库,则不会进行校验行为。 pg_verify_residualfiles() 描述:用于验证当前实例上所有残留文件列表中记录的文件是否为残留文件。该函数为实例级函数,与当前所在的数据库相关,可以在任意实例上运行。
出现数据格式错误的数据源文件名。 rownum bigint 在数据源文件中,出现数据格式错误的行号。 rawrecord text 在数据源文件中,出现数据格式错误的原始记录。 detail text 详细错误信息。 非数据格式错误 对于非数据格式错误,一旦发生将导致整个数据导入失败,不会写
es=TRUE,则“导入文件不存在”的时候,GaussDB(DWS)将抛出“文件不存在的”错误。 参数类型:SUSET 取值范围:布尔型 on表示导入时区分“导入文件记录数为空”和“导入文件不存在”。 off表示导入时不区分“导入文件记录数为空”和“导入文件不存在”。 默认值:off
es=TRUE,则“导入文件不存在”的时候,GaussDB(DWS)将抛出“文件不存在的”错误。 参数类型:SUSET 取值范围:布尔型 on表示导入时区分“导入文件记录数为空”和“导入文件不存在”。 off表示导入时不区分“导入文件记录数为空”和“导入文件不存在”。 默认值:off
es=TRUE,则“导入文件不存在”的时候,GaussDB(DWS)将上报“文件不存在的”错误。 参数类型:SUSET 取值范围:布尔型 on表示导入时区分“导入文件记录数为空”和“导入文件不存在”。 off表示导入时不区分“导入文件记录数为空”和“导入文件不存在”。 默认值:off
row) 本函数只能验证记录的文件在当前登录的数据库中是否是残留文件。如果记录的文件不属于当前登录的数据库,则不会进行校验行为。 pg_verify_residualfiles() 描述:用于验证当前实例上所有残留文件列表中记录的文件是否为残留文件。该函数为实例级函数,与当前所在的数据库相关,可以在任意实例上运行。
”、导入时的缓存个数以及数据缓存区大小。 如果导入表存在索引,在数据导入过程中,将增量更新索引信息,影响数据导入性能。建议在执行数据导入前,先删除相关表的索引。在数据导入完成后,再重新创建索引。 操作步骤 在GaussDB(DWS)数据库中,创建目标表,用于存储从OBS导入的数据。
据的OBS路径并设置读取权限中的步骤。 本小节以导入ORC格式为例,CARBONDATA数据的导入方法与ORC格式相似。 原始数据 假设您已将2个ORC数据文件存储在OBS上,其原始数据分别如下: 数据文件“product_info.0” 示例数据如下所示: 1 2 3 4 5 100
获取残留文件列表函数 pg_get_residualfiles() 描述:用于获取当前节点的所有残留文件记录。该函数为实例级函数,与当前所在的数据库无关,可以在任意实例上运行。 返回值类型:record 返回信息如下: 表1 pg_get_residualfiles()返回字段 名称
SV格式的文件中。 delimiter:指定数据文件行数据的字段分隔符,不指定则使用默认分隔符。 外表可以识别的更多参数,详细使用请参见数据格式参数 。 规划并行导入容错性,以控制导入过程中处理错误的方式。 fill_missing_fields:数据入库时,数据源文件中某行的最
NDATA格式的数据源文件。 如果用户数据无法以CSV格式保存,可以选择以文本类型保存为其他任意格式后缀的文件。 根据导入数据原理,当数据源文件的数据量较大时,将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件数量为DataNode的整数倍时,导入性能更好。 假设您已将
“format”:表示对应的OBS服务上的文件格式,支持“orc”、“carbondata”格式。 “foldername”:必选参数。数据源文件的OBS路径,此处仅需要填写“/桶名/文件夹目录层级/”。 可以先通过OBS上的数据准备中的2获取数据源文件的完整的OBS路径,该路径为OBS服务的终端节点(Endpoint)。