Haydn解决方案工厂-项目实施开发:实施质量检查
实施质量检查
实施质量检查包含 数据实例 实施过程中的工具,用户可以根据检查结果进行相应作业的优化,旨在帮助客户在进行 数据治理 过程中,能够更好地监控实施过程中的质量。
功能模块 |
子模块 |
说明 |
---|---|---|
数据模型设计检测 |
|
数据治理时,数据会分层建设,数据集成方式(增量,全量)、集成周期都不一样,按照这些对每张表按其统一规范命名。扩展字段是为了对其每条数据做更好的运维统计,例如加了版本批次号、经过哪个ETL脚本而来的、数据入仓更新时间、软删除等等。 |
源系统和SDI层数据一致性检测 |
|
在数据集成时,最重要的是数据不丢失、不失真、不乱码、源表数据结构不变化,否则会造成数据指标计算不准确。而数据集成服务的网络往往非常复杂,依赖于源系统和网络,因此在监控检测源系统和 数据湖 的SDI层的数据一致性,可以快速给问题定界定位。 |
DGC命名规范检测 |
|
DGC是 数据治理中心 ,尤其是数据开发模块,数据的ETL脚本的逻辑和任务调度编排均在DGC上。因此,一个规范统一的命名规范显得尤为重要,统一而规整,加强数据治理的专业性。 |
脚本规范检测 |
|
脚本承载着数据ETL的逻辑,定期运行。增强脚本的可读性,有助于数据开发阶段的人员定位问题、交流以及后期的运维。 |
DGC作业监控 |
|
作业运行时长的影响因素包含计算资源的影响和处理数据的影响,因此,当作业运行时间波动很大时,表明计算资源或者表数据有问题。例如,临时表没有清理,表数据发散等等,到最后都会造成重大问题。本功能模块可以在这些bug产生较小的影响情况下发现并及时修改。 |
- 表命名规范检查
- 在“作业管理”下选择“实施质量检查作业”页签,在“数据模型设计”下选择“表命名规范”,添加监控对象。如,本实践需要检查目标端 MRS Hudi的表命名是否符合规范,则可选择该数据连接。
图34 添加监控对象
解决方案工作台为每类实施质量检查作业预置通用的检查规则,如上图中表命名规范检查作业,解决方案工作台预置了部分规范标准,用户可在【规则配置】里根据需要修改或新增规则。
- 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择解决方案工作台预置的或新增的规范标准。
图35 添加采集信息
- 预览监控对象配置信息,并将该信息复制到5中的配置文件application.properties内,运行探源工具,获取监控信息。
图36 预览监控对象配置信息
- 查看检查结果。
若运行探源工具的服务器可访问公网,则检查结果可在线上报,点击界面右侧的刷新按钮即可查看;若运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。本实践通过导入的方式进行离线导入。
图37 探源工具运行结果图38 导入检查结果
- 在“作业管理”下选择“实施质量检查作业”页签,在“数据模型设计”下选择“表命名规范”,添加监控对象。如,本实践需要检查目标端 MRS Hudi的表命名是否符合规范,则可选择该数据连接。
- 附加字段规范检查
与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。
图39 探源工具运行结果图40 查看检查结果 - 源系统和SDI层数据一致性检查
若在完成 CDM 作业一键生成后开启了同步生成质量检查作业,则此处会同步生成检查作业;用户也可以根据需要自己添加监控对象。同样,本功能模块需要运行探源工具获取检查结果。
图41 源系统和SDI层数据一致性检查作业图42 探源工具检查结果图43 检查结果 - DataArts Studio 作业命名检查
检查DataArts Studio作业是否符合项目定义的规范。
- 编辑作业命名规范。解决方案工作台预置了批处理作业和实时检查作业的检查规范,用户可以根据需要修改。
- 新建监控对象。选择本账号下要检查的DataArts Studio实例。
图44 添加监控对象
- 点击刷新按钮,查看结果结果。
图45 查看检查结果
- DataArts Studio作业节点命名检查
检查DataArts Studio作业中的作业节点(CDM JOB、MRS Kafka等)命名是否符合项目定义的规范。同样,用户可根据需要修改解决方案工作台预置的节点命名检查规范后,添加指定的监控对象进行检查。
图46 作业节点命名检查 - DataArts Studio脚本命名检查
检查DataArts Studio脚本命名是否符合项目定义的规范。
图47 脚本命名检查 - DataArts Studio环境变量命名检查
图48 环境变量命名检查
- DataArts Studio数据连接命名检查
检查DataArts Studio数据连接(Oracle、MRS Hudi、Hive、DWS等)命名是否符合项目定义的规范。
图49 数据连接命名检查 - 脚本规范检测
检查DataArts Studio脚本是否符合项目定义的规范。
图50 添加脚本检测规范图51 查看检查结果 - DataArts Studio作业监控
图52 作业监控配置图53 作业监控结果