Haydn解决方案工厂-项目实施开发:实施质量检查

时间:2025-02-12 15:03:57

实施质量检查

实施质量检查包含 数据实例 实施过程中的工具,用户可以根据检查结果进行相应作业的优化,旨在帮助客户在进行 数据治理 过程中,能够更好地监控实施过程中的质量。

表2 实施质量检查功能介绍

功能模块

子模块

说明

数据模型设计检测

  • 表命名规范检查
  • 附加字段规范检查

数据治理时,数据会分层建设,数据集成方式(增量,全量)、集成周期都不一样,按照这些对每张表按其统一规范命名。扩展字段是为了对其每条数据做更好的运维统计,例如加了版本批次号、经过哪个ETL脚本而来的、数据入仓更新时间、软删除等等。

源系统和SDI层数据一致性检测

  • 表数量对比
  • 表内容对比
  • 源系统表结构监控

在数据集成时,最重要的是数据不丢失、不失真、不乱码、源表数据结构不变化,否则会造成数据指标计算不准确。而数据集成服务的网络往往非常复杂,依赖于源系统和网络,因此在监控检测源系统和 数据湖 的SDI层的数据一致性,可以快速给问题定界定位。

DGC命名规范检测

  • 作业命名
  • 节点命名
  • 脚本命名
  • 环境变量命名
  • 数据连接命名

DGC是 数据治理中心 ,尤其是数据开发模块,数据的ETL脚本的逻辑和任务调度编排均在DGC上。因此,一个规范统一的命名规范显得尤为重要,统一而规整,加强数据治理的专业性。

脚本规范检测

  • 脚本注释
  • 排版规范
  • 语句规范

脚本承载着数据ETL的逻辑,定期运行。增强脚本的可读性,有助于数据开发阶段的人员定位问题、交流以及后期的运维。

DGC作业监控

  • 作业运行时间监控
  • 节点运行时间监控

作业运行时长的影响因素包含计算资源的影响和处理数据的影响,因此,当作业运行时间波动很大时,表明计算资源或者表数据有问题。例如,临时表没有清理,表数据发散等等,到最后都会造成重大问题。本功能模块可以在这些bug产生较小的影响情况下发现并及时修改。

  • 表命名规范检查
    1. 在“作业管理”下选择“实施质量检查作业”页签,在“数据模型设计”下选择“表命名规范”,添加监控对象。如,本实践需要检查目标端 MRS Hudi的表命名是否符合规范,则可选择该数据连接。
      图34 添加监控对象

      解决方案工作台为每类实施质量检查作业预置通用的检查规则,如上图中表命名规范检查作业,解决方案工作台预置了部分规范标准,用户可在【规则配置】里根据需要修改或新增规则。

    2. 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择解决方案工作台预置的或新增的规范标准。
      图35 添加采集信息
    3. 预览监控对象配置信息,并将该信息复制到5中的配置文件application.properties内,运行探源工具,获取监控信息。
      图36 预览监控对象配置信息
    4. 查看检查结果。

      若运行探源工具的服务器可访问公网,则检查结果可在线上报,点击界面右侧的刷新按钮即可查看;若运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。本实践通过导入的方式进行离线导入。

      图37 探源工具运行结果
      图38 导入检查结果
  • 附加字段规范检查

    与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。

    图39 探源工具运行结果
    图40 查看检查结果
  • 源系统和SDI层数据一致性检查

    若在完成 CDM 作业一键生成后开启了同步生成质量检查作业,则此处会同步生成检查作业;用户也可以根据需要自己添加监控对象。同样,本功能模块需要运行探源工具获取检查结果。

    图41 源系统和SDI层数据一致性检查作业
    图42 探源工具检查结果
    图43 检查结果
  • DataArts Studio 作业命名检查

    检查DataArts Studio作业是否符合项目定义的规范。

    1. 编辑作业命名规范。解决方案工作台预置了批处理作业和实时检查作业的检查规范,用户可以根据需要修改。
    2. 新建监控对象。选择本账号下要检查的DataArts Studio实例。
      图44 添加监控对象
    3. 点击刷新按钮,查看结果结果。
      图45 查看检查结果
  • DataArts Studio作业节点命名检查

    检查DataArts Studio作业中的作业节点(CDM JOB、MRS Kafka等)命名是否符合项目定义的规范。同样,用户可根据需要修改解决方案工作台预置的节点命名检查规范后,添加指定的监控对象进行检查。

    图46 作业节点命名检查
  • DataArts Studio脚本命名检查

    检查DataArts Studio脚本命名是否符合项目定义的规范。

    图47 脚本命名检查
  • DataArts Studio环境变量命名检查
    图48 环境变量命名检查
  • DataArts Studio数据连接命名检查

    检查DataArts Studio数据连接(Oracle、MRS Hudi、Hive、DWS等)命名是否符合项目定义的规范。

    图49 数据连接命名检查
  • 脚本规范检测

    检查DataArts Studio脚本是否符合项目定义的规范。

    图50 添加脚本检测规范
    图51 查看检查结果
  • DataArts Studio作业监控
    图52 作业监控配置
    图53 作业监控结果
support.huaweicloud.com/bestpractice-haydncsf/haydncsf_06_0033.html