数据管理与分析-构建人口库模型、分析来源并接入:分析来源并接入
分析来源并接入
分析人口库中所需数据,得出数据来源,例:户籍人口信息 rk_baseinfo、民政局 婚姻状况 rk_marriage、人社局 社保信息 Insuarance、教育局 教育信息 Education。将这些部门资源库配置入系统,并配置接入作业
首先要根据需求将不同部门的人口信息实体表 t_rk_baseinfo 从部门资源库采集到数仓贴源层中。
选择部门资源库(来源库)、来源表,根据选择的来源表判断表的类型是实体还是明细,比如如果设定好调度周期和调度时间,保存成功后单击【推送并启用】,等待作业跑成功,可以先关闭页面,任务跑结束后会发送一个是否跑成功的系统提醒。在数仓的贴源层会生成一个贴源层表,如果是实体表格式为 O_ST_{@dept}_{@table},明细表格式为O_SS_{@dept}_{@table}({@dept}与{@table} 分别代表部门简称及原表名)。
如人口信息实体表t_rk_baseinfo接入成功后贴源层生成O_ST_XTGLB_t_rk_baseinfo表。

人口婚姻表 t_rk_marriage 资源表类型选择明细,接入成功后贴源层生成 O_SS_XTGLB_t_rk_marriage 表

采集方式说明
全量模式接入:推荐 1000w 以下数据量使用,平均 100ws 数据只需 60s 即可接入至数仓中
时间戳接入:只支持数据是增量插入的,存在删除、修改数据的情况不建议使用,数据会不准确
时间戳+触发器接入:推荐 1000w 数据量以上使用,但贴源层表数据不能直接使用,需数据清洗至标准层,hive 中数据处理存在临时表,处理数据时间比前两种方式长