检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GDS导入数据时,脚本执行报错:out of memory 问题现象 在使用GDS导入数据时,脚本执行报错“out of memory”。 原因分析 使用copy命令或者导入数据时,源数据单行数据的大小超过1GB。 由于源文件中的格式符不成对出现,比如引号,文件格式异常导致系统识别的单行数据过大超过1GB。
mkdir -p /input_data 将数据源文件上传至上一步所创建的目录中。 GDS并行导入支持CSV、TEXT格式的数据导入。请确保数据源文件符合格式要求。 父主题: 使用GDS从远端服务器导入数据
转换规则转换后入库,还是报错中止导入。 取值范围:true/on,false/off。 参数为true/on,则导入时遇到非法字符进行容错处理,非法字符转换后入库,不报错,不中断导入。 参数为false/off,导入时遇到非法字符进行报错,中断导入。 缺省值:false/off。
启动以上4个GDS,如果只测试TPC-DS或TPC-H数据,请根据后面的“#xxx”备注启动对应的GDS服务即可。 -d dir:保存有待导入数据的数据文件所在目录。 -p ip:port:GDS监听IP和监听端口。IP替换为ECS的内网IP,确保GaussDB(DWS)能通过此
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
MRS集群上的数据准备 从MRS导入数据到GaussDB(DWS)集群之前,假设您已经完成了以下准备工作: 已创建MRS集群。 在MRS集群上创建了Hive/Spark ORC表,且表数据已经存储到该表对应的HDFS路径上。 如果您已经完成上述准备,则可以跳过本章节。 为方便起见,以在MRS集群上创建Hive
hdfscfgpath=/MRS/8f79ada0-d998-4026-9020-80d6de2692ca,type=hdfs} (1 row) 父主题: 从MRS导入数据到集群
使用GDS从远端服务器上导入表数据到GaussDB(DWS)集群 教程指引 本教程旨在演示使用GDS(General Data Service)工具将远端服务器上的数据导入GaussDB(DWS)中的过程,帮助您学习如何通过GDS进行数据导入的方法。 GaussDB(DWS)支持
zip”,并安装“psqlodbc.msi”。 解压SSL证书压缩包,并准备证书文件。 用户可以根据实际情况选择自动或手动部署方法: 自动部署: 双击“sslcert_env.bat”文件,即可完成证书的默认位置的部署。 该sslcert_env.bat为了保证证书环境的纯净,在%APPDATA%\p
当“启用SSL”设置为开启时,请先下载SSL证书,并解压证书文件。然后单击“SSL”页签,设置如下参数: 表3 配置SSL参数 字段名称 说明 客户端SSL证书 选择SSL证书解压目录下的“sslcert\client.crt”文件。 客户端SSL密钥 客户端SSL密钥只支持PK8格式,请选择SSL证书解压目录下的“sslcert\client
gaussdb -h <DWS的内网IP> -U dbadmin -p 8000 -r -W <用户dbadmin密码>; 父主题: GDS方式导入
通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败 问题现象 MySQL 5.x版本字段长度varchar(n),用CDM同步数据到GaussDB(DWS),同样设置长度为varchar(n) ,但是会出现字段超长,数据同步失败的问题。 原因分析 MySQL5
并行导入 GaussDB(DWS)提供了并行导入功能,以快速、高效地完成大量数据导入。介绍GaussDB(DWS)并行导入的相关参数。 raise_errors_if_no_files 参数说明:导入时是否区分“导入文件记录数为空”和“导入文件不存在”。raise_errors_
数据文件是否包含标题行(header)为默认值false,即导入时数据文件第一行被识别为数据。 设置导入容错性如下所示: 允许出现的数据格式错误个数(PER NODE REJECT LIMIT 'value')为unlimited,即接受导入过程中所有数据格式错误。 将数据导入过程中出现的数据格式错误信息(LOG
并行导入 GaussDB(DWS)提供了并行导入功能,以快速、高效地完成大量数据导入。介绍GaussDB(DWS)并行导入的相关参数。 raise_errors_if_no_files 参数说明:导入时是否区分“导入文件记录数为空”和“导入文件不存在”。raise_errors_
0')的字符串 ,需在导入前去掉字符串中的'\0'。 处理方法 用sed命令替换0x00后,即可成功导入。 1 sed -i 's/\x00//g;' file 参数说明: -i表示在原文件直接替换。 s/表示替换。 /g表示全局替换。 父主题: 数据导入/导出
保证单文件导入速率最大化。 提前做好服务部署规划,数据服务器上,建议一个Raid只布1~2个GDS。GDS跟DN的数据比例建议在1:3至1:6之间。一台加载机的GDS进程不宜部署太多,千兆网卡部署1个GDS进程即可,万兆网卡机器建议部署不大于4个进程。 提前对GDS导入导出的数据
必须使用SSL安全连接,并且验证数据库是否具有可信证书机构签发的证书。 verify-full 是 必须使用SSL安全连接,在verify-ca的验证范围之外,同时验证数据库所在主机的主机名是否与证书内容一致。GaussDB(DWS)不支持此模式。 SSL模式。 如果需要使用SSL证书连接,那么请将Gaus
必须使用SSL安全连接,并且验证数据库是否具有可信证书机构签发的证书。 verify-full 是 必须使用SSL安全连接,在verify-ca的验证范围之外,同时验证数据库所在主机的主机名是否与证书内容一致。GaussDB(DWS)不支持此模式。 SSL模式 如果需要使用SSL证书连接,那么请将Gauss
本教程通过演示将样例数据上传OBS,以及将OBS的数据导入GaussDB(DWS)的目标表中,让您快速掌握如何从OBS导入数据到GaussDB(DWS)集群的完整过程。 GaussDB(DWS)支持通过外表将OBS上TXT、CSV、ORC、PARQUET、CARBONDATA以及JSON格式的数据导入到集群进行查询。