检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若各DN上数据分布差大于等于10%,表明数据分布倾斜,请从步骤1的备选分布列中删除该列,删除目标表,并重复步骤2 、步骤3 、步骤4 和步骤5。 此处的数据分布差表示实际查询到DN上的数据量与DN平均数据量的差异。分布差可以通过视图PGXC_GET_TABLE_SKEWNESS的查看。 (可选)如果上述步骤不能选出
一个用户最多可创建100个桶,但每个桶中存放的总数据容量和对象/文件数量没有限制。 对象:是存储在OBS中的基本数据单位。用户上传的数据以对象的形式存储在OBS的桶中。对象的属性包括名称Key,Metadata,Data。 通常,将对象等同于文件来进行管理,但是由于OBS是一种对象存储服务,并没有文件系统中的
使用DSC工具迁移SQL脚本 DSC(Database Schema Convertor)是一款运行在Linux或Windows操作系统上的命令行工具,致力于向客户提供简单、快速、可靠的应用程序SQL脚本迁移服务,通过内置的语法迁移逻辑解析源数据库应用程序SQL脚本,并迁移为适用于GaussDB(DWS)
码、邮箱或手机短信的验证码,验证通过才能成功删除。 为了账号安全性,建议您定期更换并妥善保存访问密钥。 单击“新增访问密钥”。 在弹出的对话框中,输入登录密码和对应验证码,然后单击“确定”。 用户如果未绑定邮箱和手机,则只需输入登录密码。 用户如果同时绑定了邮箱和手机,可以选择其中一种方式进行验证。
型后,不能再通过option或copy_option指定CSV、FIXED、TEXT等类型。 oid 为每行拷贝内部对象标识(oid)。 若COPY FROM对象为query或者对于没有oid的表,指定oids标识报错。 取值范围:true/on,false/off。 默认值:false/off。
GDS管道文件常见问题 注意事项 GDS支持并发导入导出,gds -t参数用于设置GDS的工作线程池大小,控制并发场景下同时工作的工作线程数且不会加速单个SQL任务。gds -t缺省值为8,上限值为200。在使用管道功能进行导入导出时,-t参数应不低于业务并发数。如果是双集群互联
使用开源Kettle导入数据 Kettle是一款开源的ETL工具,通过Kettle工具可以完成数据的抽取、转换、装入和加载。 海量数据搬迁场景下,使用Kettle自身提供的数据入库插件,入库速度在1500条/秒左右,数据搬迁耗时较高。而相同运行环境下,使用集成dws-client
导出单个数据库 导出数据库 导出模式 导出表 父主题: 使用gs_dump和gs_dumpall命令导出元数据
l工具,能够帮助用户导出需要的数据库对象或其相关信息。通过导入工具将导出的元数据信息导入至需要的数据库,可以完成数据库信息的迁移。gs_dump支持导出单个数据库或其内的对象,而gs_dumpall支持导出集群中所有数据库或各库的公共全局对象。详细的使用场景见表1。 表1 适用场景
导出全局对象 GaussDB(DWS)支持使用gs_dumpall工具导出所有数据库公共的全局对象,包含数据库用户和组,表空间及属性(例如:适用于数据库整体的访问权限)信息。 操作步骤 准备ECS作为gsql客户端主机。 请参见下载客户端下载gsql客户端,并使用SSH文件传输工
单击“服务列表”,选择“对象存储服务”,打开OBS管理控制台页面。 获取数据源文件的OBS路径。 数据源文件在上传到OBS桶之后,会生成全局唯一的访问路径。在创建外表时需要指定数据源文件的OBS路径。 如何查看OBS路径,请参见《对象存储服务控制台指南》的通过对象URL访问对象章节。 例如,
通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败 问题现象 MySQL 5.x版本字段长度varchar(n),用CDM同步数据到GaussDB(DWS),同样设置长度为varchar(n) ,但是会出现字段超长,数据同步失败的问题。 原因分析 MySQL5.0.3之前varchar(n)这里的n表示字节数。
CopyManager类简介 CopyManager是GaussDB(DWS) JDBC驱动中提供的一个API接口类,用于批量向GaussDB(DWS)集群中导入数据。 CopyManager的继承关系 CopyManager类位于org.postgresql.copy Package中,继承自java
GaussDB(DWS)支持使用GDS工具通过外表并行导入数据到集群。 当前版本的GDS已经支持从管道文件导入数据库,该功能使GDS的导入更加灵活多变。 当GDS用户的本地磁盘空间不足时,可直接将hdfs上的数据写入到管道文件而不需要占用额外的磁盘空间。 当用户导入前需要清洗数据
处理导入错误 操作场景 当数据导入发生错误时,请根据本文指引信息进行处理。 查询错误信息 数据导入过程中发生的错误,一般分为数据格式错误和非数据格式错误,错误表只能记录数据格式错误。 数据格式错误 在创建外表时,通过设置参数“LOG INTO error_table_name”,
关于COPY FROM STDIN导入数据 这种方式适合数据写入量不太大, 并发度不太高的场景。 用户可以使用以下方式通过COPY FROM STDIN语句直接向GaussDB(DWS)写入数据。 通过键盘输入向GaussDB(DWS)写入数据。 通过JDBC驱动的CopyMan
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
创建GDS外表 外表中配置了数据源格式信息、GDS服务的访问信息,从而GaussDB(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。 需要收集的主要数据源格式信息如下: format:GDS外表导入支持CSV
txt > foreign_test_pipe.pipe 若需要读取压缩文件到管道文件,执行: gzip -d < out.gz > foreign_test_pipe.pipe 若需要读取hdfs文件到管道文件,执行: hdfs dfs -cat - /user/hive/***/test_pipe
准备源数据 操作场景 通常在将数据导入数据库前,即将入库的数据已经在相关主机上了。这种保存着待入库数据的服务器为数据服务器。此时,只需检测以确认数据服务器和GaussDB(DWS)集群能够正常通信,并查看和记录数据在数据服务器上的存放目录备用。 如果待入库数据还没有就绪,则请先参考如下步骤,将数据上传到数据服务器上。