云数据库 GEMINIDB-数据迁移:数据导出

时间:2024-07-16 12:16:03

数据导出

  1. 导出准备。

    运行迁移工具,将准备好的tsm以及wal文件解析,并转化为lineProtocol文件以供导入。

    由于GeminiDB Influx压缩率较高,请按照实际GeminiDB Influx tsm文件目录以及 wal文件目录磁盘空间总和30倍的大小在导出E CS 上预留磁盘空间。

  2. 修改导出配置文件。

    请创建导出目录,解压压缩包cvtLocDataTool_all.tar至导出目录下,并修改导出目录./cvtLocDataTool/config/toolcfg.json文件,文件模板内容如下:

    {
        "orgData" : "./sample_data",
        "expBeginTime" : "2021-03-27T08:00:00+08:00",
        "expEndTime"   : "2021-03-27T20:00:00+08:00",
        "mutilProc"    : true,
        "Concurrent Number" : 12, 
        "openDebugLog" : false,
        "ignoreDBs" : "_internal|myfirstdb"
    }
    • orgData:表示GeminiDB Influx wal以及tsm文件存放目录。请整理tsm以及wal文件目录,并确保tsm文件目录如下:xxx/data/[Database name]/[RP name] /[shard Id]/xxxx.tsm,wal文件目录如下:xxx/wal/[Database name]/[RP name] /[shard Id]/xxxx.wal。
    • expBeginTime: 表示迁移导出数据的起始时间(GMT+08:00),"" 空表示不需要指定开始时间。
    • expEndTime:表示迁移导出数据的结束时间(GMT+08:00),"" 空表示不需要指定结束时间。
    • mutilProc:表示是否开启多进程,请保证该参数为true。
    • Concurrent Number:表示并发数,并发数与运行的ECS性能有关,建议:16U64GB建议配置为8,32U128GB建议配置为12。
    • openDebugLog: 打印debug日志开关,用于测试,请保证该参数为false。
    • ignoreDBs:表示不需要导出的DB列表,多个DB使用"|"分隔,默认请填写"_internal"。

  3. 运行导出脚本。

    修改完毕后,执行如下命令运行导出脚本:

    nohup python cvtAllData.py &

    可执行如下命令查看任务是否结束:

    ps -ef|grep cvtAllData.py|grep -v grep

    脚本运行结束后,导出文件会存放于cvtLocDataTool/rstData/Output/目录下。

support.huaweicloud.com/influxug-nosql/nosql_influx_migration.html