云数据库 GEMINIDB-数据迁移:数据导出
数据导出
- 导出准备。
运行迁移工具,将准备好的tsm以及wal文件解析,并转化为lineProtocol文件以供导入。
由于GeminiDB Influx压缩率较高,请按照实际GeminiDB Influx tsm文件目录以及 wal文件目录磁盘空间总和30倍的大小在导出E CS 上预留磁盘空间。
- 修改导出配置文件。
请创建导出目录,解压压缩包cvtLocDataTool_all.tar至导出目录下,并修改导出目录./cvtLocDataTool/config/toolcfg.json文件,文件模板内容如下:
{ "orgData" : "./sample_data", "expBeginTime" : "2021-03-27T08:00:00+08:00", "expEndTime" : "2021-03-27T20:00:00+08:00", "mutilProc" : true, "Concurrent Number" : 12, "openDebugLog" : false, "ignoreDBs" : "_internal|myfirstdb" }
- orgData:表示GeminiDB Influx wal以及tsm文件存放目录。请整理tsm以及wal文件目录,并确保tsm文件目录如下:xxx/data/[Database name]/[RP name] /[shard Id]/xxxx.tsm,wal文件目录如下:xxx/wal/[Database name]/[RP name] /[shard Id]/xxxx.wal。
- expBeginTime: 表示迁移导出数据的起始时间(GMT+08:00),"" 空表示不需要指定开始时间。
- expEndTime:表示迁移导出数据的结束时间(GMT+08:00),"" 空表示不需要指定结束时间。
- mutilProc:表示是否开启多进程,请保证该参数为true。
- Concurrent Number:表示并发数,并发数与运行的ECS性能有关,建议:16U64GB建议配置为8,32U128GB建议配置为12。
- openDebugLog: 打印debug日志开关,用于测试,请保证该参数为false。
- ignoreDBs:表示不需要导出的DB列表,多个DB使用"|"分隔,默认请填写"_internal"。
- 运行导出脚本。
修改完毕后,执行如下命令运行导出脚本:
nohup python cvtAllData.py &
可执行如下命令查看任务是否结束:
ps -ef|grep cvtAllData.py|grep -v grep
脚本运行结束后,导出文件会存放于cvtLocDataTool/rstData/Output/目录下。