检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新建一个对账作业实例 场景说明 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本章分别以DLI和DWS作为数据源,介绍如何通过DataArts Studio中的数据质量模块实现跨源数据对账的基本一致性校验。
源端为DMS Kafka,目的端为OBS 目前支持整库场景。 整库场景 源端配置。 Kafka配置。 数据格式:源端Kafka Topic中消息内容的格式。 目前支持JSON、CSV、TEXT格式。 JSON格式:支持对消息内容以JSON的层级格式进行解析。 CSV格式:支持对消息内容以CSV格式指定分隔符进行解析。
文件增量迁移 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 增量导出指定目录的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量
文件增量迁移 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 增量导出指定目录的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证通用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 仅当创建IAM用户时的访问方式勾选“编程访问”后
实例监控 作业每次运行,都会对应产生一次作业实例记录。在数据开发模块控制台的左侧导航栏,选择 “运维调度”,进入实例监控列表页面,用户可以在该页面中查看作业的实例信息,并根据需要对实例进行更多操作。 实例监控支持从“作业名称”、“创建人”、“责任人”、“CDM作业”、“节点类型”
管理作业标签 作业标签用于给相同或用途类似的作业打上标签,便于管理作业,并根据标签查询作业。参考本节操作,您可管理作业标签,执行新增、删除、导入、导出等操作。 新建作业标签 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
业务指标 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
更新复合指标 功能介绍 根据参数,更新复合指标。 调用方法 请参见如何调用API。 URI PUT /v2/{project_id}/design/compound-metrics 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
新建复合指标 功能介绍 根据参数,新建复合指标。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/design/compound-metrics 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
购买并管理专享版集群 如果您对服务的性能需求不大,可使用共享版数据服务,直接进行新建数据服务审核人,而无需单独购买专享版实例。 本小节指导您顺利购买专享版实例,实例创建完成后,才能在数据服务专享版创建API并对外提供服务。 如果需要创建、删除专享版集群或修改API配额,则需具备以下权限之一的账号才能进行操作:
新建Hadoop集群配置 集群配置管理支持新建、编辑或删除Hadoop集群配置。 Hadoop集群配置主要用于新建Hadoop类型连接时,能够简化复杂的连接参数配置,如图1所示。 图1 使用集群配置前后对比 CDM支持的Hadoop类型连接主要包括以下几类: MRS集群:MRS HDFS,MRS
源端为对象存储 JSON样例 "from-config-values": { "configs": [ { "inputs": [ { "name": "fromJobConfig
配置FTP/SFTP源端参数 表1 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 要传输的目录或单个文件路径。 FROM_DIRECTORY/ or FROM_DIRECTORY/example.csv 文件格式 传输数据时使用的格式。
源端为FTP/SFTP JSON样例 "from-config-values": { "configs": [ { "inputs": [ { "name": "fromJobConfig
(可选)获取认证信息 DataArts Studio使用过程中,例如在数据集成创建OBS连接、API调用或问题定位时,您可能需要获取访问密钥、项目ID、终端节点等信息,获取方式如下。 获取访问密钥 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。
Rest Client数据连接参数说明 表1 Rest Client连接 参数 是否必选 说明 数据连接类型 是 Rest Client连接固定选择为Rest Client。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否
其他编程语言 APP认证工作原理 构造规范请求。 将待发送的请求内容按照与API网关后台约定的规则组装,确保客户端签名、API网关后台认证时使用的请求内容一致。 使用规范请求和其他信息创建待签字符串。 使用AK/SK和待签字符串计算签名。 将生成的签名信息作为请求消息头添加到HT
是否支持字段转换? 支持,CDM支持以下字段转换器: 脱敏 去前后空格 字符串反转 字符串替换 表达式转换 在创建表/文件迁移作业的字段映射界面,可新建字段转换器,如下图所示。 图1 新建字段转换器 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“123****8910”,则配置如下: