检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
数据治理模块域 数据治理主要专注于如下模块域: 数据集成 数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准,包括:明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由数据代表在入湖前完成梳理并在数据治理平台上进行资产注册
source_tables 否 Array of MappingSourceTableVO objects 映射的表信息。 source_fields 否 Array of MappingSourceFieldVO objects 映射的字段信息。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置。
KERBEROS IP与主机名映射 输入IP和主机名。 如果配置文件使用主机名,需要配置所有IP与主机的映射,多个主机之间使用空格进行分隔。 IP:10.3.6.9 主机名: hostname01 HBase版本 HBase版本。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
主题设计 码表管理 码表,也称lookup表、数据字典表,一般由中英文名称编码组成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的作用主要有: 在数据清洗中用于标准化业务数据以及补充映射字段。 在质量监控中用于监控业务数据的值域范围。
分别配置数据连接、集群、目录、主题的映射资源信息。如不选择,默认使用原映射资源信息。 图11 配置映射资源信息 数据连接:选择导入后的数据连接类型。 集群:如果数据连接类型是DLI,需要选择对应的队列。 目录:选择导入后的质量作业存储目录。
图4 作业配置 配置作业字段映射及任务配置,单击“保存并运行”,执行CDM作业。 在“表/文件迁移”作业列表中,查看作业执行情况。 图5 查看作业运行情况 创建数据连接 登录DataArts Studio控制台,单击相应工作空间后的“管理中心”。
使用API时,每个子域名每天可以访问多少次? 每个子域名的访问次数限制与API发布到的目标有关。 共享版默认发布到API网关共享版。发布成功后,您可以在API网关服务共享版控制台上查看所发布的API。 系统为API网关共享版的默认分组自动分配一个内部测试用的调试域名,此调试域名唯一且不可更改
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
基本概念 数据库、数据仓库、数据湖与华为智能数据湖方案 请参考数据库、数据仓库、数据湖与华为智能数据湖方案。 DataArts Studio实例 DataArts Studio实例是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提供给用户
source_tables 否 Array of MappingSourceTableVO objects 映射的表信息。 source_fields 否 Array of MappingSourceFieldVO objects 映射的字段信息。
选择是否将标题的首行解析为列名,在配置字段映射时会在原字段中显示该列名。 说明: 标题行数大于1时,当前仅支持解析标题的首行作为列名。 列名不支持“&”字符,否则会导致作业迁移失败,需修改CSV文件“&”字符即可正常迁移。
图2 字段映射关系 单击“下一步”配置任务参数。 图3 任务参数 各参数说明如表3所示。 表3 任务配置参数 参数 说明 取值样例 同时执行的表个数 抽取时并发执行的表的数量。 3 抽取并发数 当前任务从源端进行读取最大线程数。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
source_tables Array of MappingSourceTableVO objects 映射的表信息。 source_fields Array of MappingSourceFieldVO objects 映射的字段信息。
Cdm.1114 400 Rowkey为空,请在字段映射步骤重新设置。 Rowkey为空。 请按照错误提示进行处理。 Cdm.1115 400 Columns为空,请在字段映射步骤重新设置。 Columns为空。 请按照错误提示进行处理。