云采用框架-数据调研
数据调研
数据调研主要包括如下方面:
调研内容 |
调研目的 |
举例 |
---|---|---|
数据类型 |
根据数据类型选择合适的迁移工具 |
HDFS、HBase、MySQL等 |
数据量 |
历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。 |
历史数据X PB 日增量Y TB |
数据分层 |
调研数据分层主要用于迁移优先级和数据校验标准。 |
数据接入层、中间层、结果层 |
数据权限 |
根据源端数据权限控制组件的不同,选择不同的权限数据迁移方式 |
Sentry、Ranger等 |
数据重要性 |
调研数据重要性的目的是区分核心数据和非核心数据,用于迁移优先级和数据校验标准。 |
交易类是核心数据,日志类是非核心数据 |
数据更新频率 |
针对不同的刷新周期,制定数据的迁移计划和校验计划。 |
日刷新/周刷新/月刷新/实时更新 |
任务执行区间 |
让数据迁移、数据校验和业务高峰期错开。 |
离线任务上班前和下班后执行 |
调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。