检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过云专线连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过云专线打通网络的方案。 图1 网络示意图
source_tables 否 Array of MappingSourceTableVO objects 映射的表信息。 source_fields 否 Array of MappingSourceFieldVO objects 映射的字段信息。
补数据优先级设置和DLI的spark.sql.dli.job.priority优先级的映射关系如下: 补数据的优先级设置为1时,映射到DLI优先级spark.sql.dli.job.priority=1; 补数据的优先级设置为2时,映射到DLI优先级spark.sql.dli.job.priority
KERBEROS IP与主机名映射 输入IP和主机名。 如果配置文件使用主机名,需要配置所有IP与主机的映射,多个主机之间使用空格进行分隔。 IP:10.3.6.9 主机名: hostname01 HBase版本 HBase版本。
分别配置数据连接、集群、目录、主题、映射资源信息。如不选择,默认使用原映射资源信息。 图6 配置映射资源信息 数据连接:选择导入后的数据连接类型。 集群:如果数据连接类型是DLI,需要选择对应的队列。 目录:选择导入后的对账作业存储目录。
图4 作业配置 配置作业字段映射及任务配置,单击“保存并运行”,执行CDM作业。 在“表/文件迁移”作业列表中,查看作业执行情况。 图5 查看作业运行情况 创建数据连接 登录DataArts Studio控制台,单击相应工作空间后的“管理中心”。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
主题设计 码表管理 码表,也称lookup表、数据字典表,一般由中英文名称编码组成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的作用主要有: 在数据清洗中用于标准化业务数据以及补充映射字段。 在质量监控中用于监控业务数据的值域范围。
配置目录的映射资源信息,选择导入后的规则模板存储目录。如不选择,默认使用原映射资源信息。 图11 配置映射资源信息 单击“导入”,将填好的Excel表格模板导入到系统。 单击“导入记录”页签,可查看对应的导入记录。 父主题: 数据质量监控
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
刷新源表和目标表映射,单击“目标字段编辑”检查要写入目的端的字段情况,并根据实际情况选择配置分区字段。 图7 源表与目标表映射 分区字段 支持配置分区字段,将在写入OBS时自动生成对应分区目录,目录名为“分区字段=分区值”。
source_tables 否 Array of MappingSourceTableVO objects 映射的表信息。 source_fields 否 Array of MappingSourceFieldVO objects 映射的字段信息。
Python 使用Python节点前,需确认对应主机连接的主机配有用于执行Python脚本的环境。 功能 通过Python节点执行Python语句。 Python节点的具体使用教程,请参见开发一个Python脚本。 Python节点支持脚本参数和作业参数。 参数 用户可以参考表1和表
图2 字段映射关系 单击“下一步”配置任务参数。 图3 任务参数 各参数说明如表3所示。 表3 任务配置参数 参数 说明 取值样例 同时执行的表个数 抽取时并发执行的表的数量。 3 抽取并发数 当前任务从源端进行读取最大线程数。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
分别配置数据连接、集群、目录、主题的映射资源信息。如不选择,默认使用原映射资源信息。 图11 配置映射资源信息 数据连接:选择导入后的数据连接类型。 集群:如果数据连接类型是DLI,需要选择对应的队列。 目录:选择导入后的质量作业存储目录。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。