HAYDN解决方案工厂-项目实施开发:数据调研

时间:2024-07-04 19:45:18

数据调研

在项目交付进行方案设计和实施开发之前,需要梳理当前项目中的原始数据有哪些,即数据调研。本实践的数据源如下:

表1 数据源信息

归属系统

数据类型

DB&表

说明

源端-门店系统

MySQL

store_mgmt.t_user_store_info

源端门店基本信息表,需要通过数据调研的方式获取表结构。

源端-订单系统

MySQL

order_mgmt.t_trade_order

源端订单基本信息表,需要通过数据调研的方式获取表结构。

目标端-数据中台

MRS -Hudi

  • t_trade_order
  • t_user_store_info

目标端系统,不需要做数据调研,但是由于后续做数据迁移入湖时需要用到,因此可以在本章节统一创建数据连接。

  1. 实施责任人(本实践设置为“解决方案工作台Trial_TE”)在交付空间内左侧导航栏选择“交付中心-实施管理”,在相应的项目下点击【实施交付】按钮,进入后切换至“作业管理”TAB页下的“数据调研作业”页面。

    图2 数据调研作业页面

  2. 点击【管理应用系统和数据连接】,创建公司组织架构信息。

    在开始对调研对象进行监控前,需要创建应用系统列表,用于展示公司的组织架构信息。后续的数据连接以及监控等需要按照组织架构进行划分。
    图3 创建组织架构信息

    如上图所示,创建了三个应用系统,分别表示源端的门店和订单系统、以及目标端的数据中台管理系统。

  3. 创建数据连接。

    按照公司组织架构,根据对应的连接系统和数据库连接类型管理用户的数据连接,以便完成数据调研以及后续的数据实施。

    图4 创建数据连接

    在本实践中,需要将客户源端的MySQL数据迁移至云上MRS,如下图所示为本实践配置的数据连接,分别是源端的两个MySQL连接和目标端的一个MRS Hudi连接。

    图5 数据连接清单

  4. 添加监控对象,配置想要采集的数据连接的库表信息,以及所需采集的空值字段的表名和表字段名。

    图6 配置调研规则入口
    1. 为了做源端数据调研,需要对源端系统进行监控,若需要对字段的空置率进行检测,则可配置要检测的字段名。
      进入“配置调研规则”页面后,点击【添加监控对象】。如下图添加了两个源端连接(订单系统、门店系统)作为监控对象。
      图7 添加监控对象
    2. 点击右下角的【下一步】,配置鉴权码。本实践选择【关闭】。

      数据调研结果可在线上报或离线导入。若运行调研工具的服务器可访问公网,则可在此选择【开启】鉴权码,将开启状态的鉴权码配置到数据调研的配置文件中,数据调研结果将会在线上报至解决方案工作台;否则需要离线导入,此时可选择【关闭】鉴权码。

      图8 配置鉴权码
    3. 点击右下角的【下一步】,配置采集规则。

      解决方案工作台支持使用调研工具对源系统进行数据调研,支持配置数据调研规则,包含DB、表信息等采集周期和具体时间,若未配置,则按默认规则进行数据采集。

      • DB采集:配置数据库采集时间,如:数据库类型,数据库表数,数据总量,采集时间。
      • 表信息采集:配置表的采集时间。
      • 字段采集:配置字段采集时间。
      • 上报采集:配置库、表、字段采集信息的上报时间。
      • 删除字段:各项目根据自己公司的实际情况,配置表在软删除时删除字段的名称。
      图9 配置采集规则

  5. 点击【确定】,将会自动下载配置文件application.properties。您可以将配置文件保存至本地并补充待调研系统的数据库登录信息。

    配置文件中包含了前面配置的规则、数据源信息等,用户可以修改配置文件中的信息。由于解决方案工作台不记录数据库密码,因此下载配置文件后可自行在文件中补充数据库登录密码。

    图10 下载配置文件
    图11 更新配置文件

  6. 返回“数据调研作业”页面,下载探源工具示例代码,结合下载的配置文件按照探源工具指导对源系统进行数据调研。

    1. 下载探源工具示例代码
      图12 下载探源工具示例代码
    2. 将下载的压缩包解压缩。jar包已提供为分段压缩包,把子压缩包放在一个文件夹中解压即可得到完整jar包。同时支持通过修改代码,重新编译打包。
    3. 将jar包放入远端服务器中,即环境准备中用来做调研的服务器中。例如,本最佳实践需要对两个MySQL数据库进行数据调研,则可将本探源工具放入准备好的某台linux服务器中,只需保证该服务器网络可访问到这两个MySQL数据库即可。
    4. 5中下载的配置文件application.properties放入该远端服务器中。注意,需要和jar包在同一个目录下。
      图13 探源工具
    5. 运行启动脚本:run_agent.sh

      启动后,将会按照5中配置文件application.properties的规则进行数据调研,获取指定数据库的数据结构。更多说明,请参考探源工具示例代码中的指导。

      探源工具通过查询指定数据库的系统表获取相关信息,对数据库压力较小,但为了保证不影响业务,建议将探源工具的定时任务设置在凌晨等压力较小的时间段进行。

  7. 查看监控对象数据调研结果。数据调研结果可在线上报或离线导入:若运行探源工具的服务器可访问公网,则支持在线上报;否则需要离线导入。

    • 在线上报

      按照5中配置文件application.properties的采集和上报规则,调研结果可在线上报到解决方案工作台(要求运行探源工具的服务器可访问公网)。在图15中点击刷新按钮即可。

    • 离线导入

      若调研的系统仅能在客户侧内网运行,则可通过离线导入的方式将调研结果(6运行后会在相同目录下生成数据压缩包)导入到解决方案工作台。

      图14 探源工具运行结果
    图15 查看调研结果

    点击表名可查看详细表结构,包括表行数、表数据量、空值率检测(该表是否进行了空置率检测)等。

    图16 数据探源结果

  8. 生成入湖清单

    对于探源到的数据,可将需要的数据配置生成入湖清单,后续基于入湖清单可直接生成 CDM 迁移入湖作业。如,本实践中需要将探源到的订单系统和门店系统进行数据迁移,通过CDM迁移至云上MRS Hudi,则可选择这两个系统下的表生成入湖清单,目标端选择MRS Hudi。

    图17 新增入湖清单
    图18 配置入湖清单
    图19 入湖清单

support.huaweicloud.com/bestpractice-haydncsf/haydncsf_06_0033.html