云采用框架-大数据迁移批次规划说明
大数据迁移批次规划说明
大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下:
- 整体迁移的场景:
- 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。
- 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。
- 分批迁移的场景:大数据规模很大,但关联关系比较清晰。
大数据平台数据量大(PB级甚至EB级),计算任务数量多。虽然规模很大,但任务之间关联关系很清晰,比如可以按照业务域进行清晰的梳理,此时我们可以对大数据按业务域进行拆分,将有关联的数据、任务、应用划分到一个批次进行迁移。分批次迁移可以有效的减少大数据迁移的风险,降低迁移方案复杂度,提高迁移效率。
大数据迁移通常按照主题域进行分批。主题域通常是按照业务功能划分,将有相似业务逻辑的关联数据集合到一起,比如销售主题域、供应链主题域、日志处理主题域等。每个主题域有专门的数据处理流程、分析模型和相关业务逻辑,以支持特定的业务需求和分析目标。大数据迁移批次规划的参考原则如下:
- 按主题域进行分批: 按主题域分批需要考虑2个相关性,数据相关性和任务相关性。数据相关性是指将具有相似业务逻辑、相互依赖或紧密相关的数据放在同一批次中,以确保一致性和完整性。任务相关性是指将具有依赖关系的任务和数据集中放在同一批次中。这样可以保证任务在正确的数据上运行,并确保任务之间的顺序和一致性。基于这2个相关性,将主题域划分为多个迁移批次,将相关的任务和数据流集中在同一批次中,提高迁移效率和降低风险。
- 尽量减少批次数量:大数据迁移过程中会对数据进行抽取、转换、加载等操作,每个操作步骤都会增加复杂度和风险,影响数据的一致性,因此,应尽量减少批次的数量。
- 批次间相互独立:批次划分时,确保不同批次间尽量是相互独立的、松耦合的,很少有相互依赖的任务和数据流。独立的批次划分,有助于降低迁移中对其它业务域的影响。
- 批次内紧耦合:批次划分时,确保每个批次包含相关性较高的主题域和相互依赖的任务和数据流,包括数据共享场景。
- 保证业务的连续性:迁移过程中应避免业务中断的情况发生,因此,在迁移批次划分时,需要考虑将与主题域关联性强的大数据应用系统也放在同一批次,以减少业务中断的风险。
- 迁移优先级排序:根据业务优先级、迁移复杂度、数据量等因素,对主题域进行优先级排序。通常,先迁移数据量较小或相对简单的主题域,后迁移复杂的主题域。