HAYDN解决方案工厂-数据实施质量检查:数据模型设计

时间:2024-11-29 16:54:14

数据模型设计

数据治理 过程中,每层的表命名都有其规范,在数据集成增量集成过程中也会多增加些表字段如ext_delete_flag (删除)、ext_updated_at (数据入仓时间)。实施人员可以通过运行此功能,检测到项目中不满足要求的表,即时整改。

  • 表命名规范检查

    表命名规范检查功能用于检查目的端(DWS、 MRS -HUDI等)数据库中的表命名是否符合项目中的规范要求。项目中大多表是根据数据模型的层进行开头命名的,如:

    • 贴源层命名:ods/sdi_业务名
    • 维表命名:dim_{domain/subject}
    • 主题层 dwi_{domain/suject}_(business_info)_[suffix] 、domain/suject:多为业务主题域
    • 明细层:dwr_{domain/suject}_(business_info)_[suffix]
    • 汇总层:dws_{domain/suject}_(business_info)_[suffix]
    • 集市层:dm_{domain/suject}_(business_info)_[suffix]
    图1 表命名规范检查

    操作步骤:

    1. 参考管理应用系统和数据连接,创建需要进行检查的数据连接;
    2. 点击【规则配置】,可查看到解决方案工作台预置的表命名规范检查规则,用户可根据需要修改或新增。
    3. 添加监控对象,选择要监控的数据连接类型和连接名称。
      图2 添加监控对象
    4. 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择解决方案工作台预置的或新增的规范标准。
      图3 添加采集信息
    5. 预览监控对象配置信息,并将该信息保存到本地,另存为配置文件application.properties。
      图4 预览监控对象配置信息
    6. 下载探源工具。
      图5 探源工具下载入口
    7. 将探源工具解压缩为jar包,并与配置文件application.properties一起放在远端服务器同一目录下。要求:该服务器为Linux操作系统,且网络上能访问到要进行质量检查的数据库。
      图6 探源工具
    8. 运行启动脚本:run_agent.sh。启动后,探源工具将会按照配置文件application.properties的规则进行数据质量检查。

      探源工具通过查询指定数据库的系统表获取相关信息,对数据库压力较小,但为了保证不影响业务,建议将探源工具的定时任务设置在凌晨等压力较小的时间段进行。

    9. 查看检查结果。

      如果运行探源工具的服务器可访问公网,则检查结果可在线上报,点击界面右侧的刷新按钮即可查看;如果运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。

      图7 探源工具运行结果
      图8 查看检查结果
  • 附件字段检查

    与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。

    图9 附件字段检查
support.huaweicloud.com/usermanual-haydncsf/haydncsf_04_0066.html