检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“购买弹性公网IP”,参考通过VPC和EIP快速搭建可访问公网的网络进行配置。 100.x.x.x/32 中转VPC及其子网 用于连通数据源和资源组网络的中间桥梁,本方案中需要使用当前租户下的一个虚拟私有云。若未开通VPC请参考创建虚拟私有云进行配置。 VPC:10.186.0.0/19
根据自身的业务特点和源数据类型,进行数据存储与分析系统的选型,选取合适的云服务用于存储源数据并进行数据查询和分析。然后,创建该云服务相应的数据连接。 新建数据连接 创建DataArts Studio数据连接 数据集成 通过DataArts Studio平台将源数据上传或者接入到云上。 数据
参数说明 表1 URI参数说明 参数名 是否必选 参数类型 说明 project_id 是 String 项目编号,获取方法请参见项目ID和账号ID。 job_name 是 String 作业名称。 instance_id 是 Long 作业实例ID, 获取方法请参见查询作业实例列表
数据权限模块为用户提供便捷的权限管控能力,提供可视化申请审批流程,并可以进行权限的审计和管理。提高数据安全的同时,还可以方便用户进行数据权限管控。 数据权限模块包含数据目录权限、数据表权限和审批中心三大子模块。具备的功能如下所示: 权限自助申请:用户可以选择自己需要权限的数据表,在线上快速发起申请。
在新建原子指标页面,参考表1配置参数。在本示例中,需要创建经营面积和销售额两个原子指标数据。 图2 新建原子指标1(配置基本信息、配置数据对象) 图3 新建原子指标1(配置表达式) 表1 新建原子指标参数说明 参数名称 说明 基本信息 *指标名称 只能包含中文、英文字母、数字和下划线,且以中文或英文字母开头。 例如,经营面积。
以跳过本步骤。 在华为云购买并配置云专线或VPN虚拟专用网络。 为了连通其他云计算环境与华为云计算环境,可以通过开通云专线或虚拟专用网络来实现。 购买和配置云专线DC的相关操作,可以参考通过云专线实现云下IDC访问云上VPC。其中在创建虚拟网关时,虚拟私有云选择步骤2所创建的中转
离线处理集成作业作为数据开发的一个作业类型,支持跨集群下发数据迁移作业,实现常用的批作业迁移能力。 相比于传统的依靠CDM集群进行生命周期管理CDM迁移作业,离线处理集成作业依靠数据开发组件的生命周期管理,由数据开发进行集成作业的统一调度和CDM集群资源的统一支配,作业运行可靠性更高、使用体验更佳。 离线处理集成
Studio是为了应对上述挑战,针对企业数字化运营诉求提供的具有数据全生命周期管理和智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数
周期调度依赖策略 传统周期调度依赖和自然周期调度依赖对比 传统周期调度 自然周期调度 自然周期调度之同周期依赖原理 自然周期调度之上一周期依赖原理 父主题: 数据开发进阶实践
表1 自检项 自检项 说明 需要执行的准备工作 为云账号及权限准备 准备华为账号,创建用户并授权使用Migration。 参考注册华为账号并开通华为云。 参考授权使用实时数据集成。 实时计算资源组准备 购买实时集成任务使用的计算资源,并关联到要使用的DataArts Studio工作空间。
数据架构 码表和数据标准有什么关系? 关系建模和维度建模的区别? 数据架构支持哪些数据建模方法? 规范化的数据如何使用? 数据架构支持逆向数据库吗? 数据架构中的指标与数据质量的指标的区别? 为什么关系建模或维度建模修改字段后,数据库中表无变化? 表是否可配置生命周期管理?
网络打通 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 数据库部署在本地IDC 数据库部署在其他云 数据库部署在华为云 父主题: 数据集成(实时作业)
规则评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。 您可以查询所创建数据连接下数据库、数据库下的数据表以及数据表所关联规则的评分,具体评分对象的计算公式,请参见表1。 表1 对象评分计算公式 对象 评分计算公式 规则 创建质量作业时,作业关联的规则中结果说明列包含
Studio数据集成是一种高效、易用的数据集成服务,围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 数据集成即云数据迁移(Cloud Data Migration,后简称CDM)服务
持的数据源。 适用于数据上云、云服务间数据交换、云上数据迁移到本地业务系统。 创建作业 数据开发 DataArts Studio数据开发是一个一站式敏捷大数据开发平台,提供可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据
处理。 支持导入和导出作业。 资源管理 支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。 作业调度 支持单次调度、周期调度和事件驱动调度,周期调度支持分钟、小时、天、周、月多种调度周期。调度周期配置为小时,系统支持按间隔小时和离散小时配置调度周期。
单击“下一步”,进入“订阅配置”页面。 如果开启通知状态,需选择通知类型,并选择主题。通知类型有“触发告警”和“运行成功”两类,可根据实际业务场景选择。 单击“下一步”,进入“调度配置”页面。 调度方式分为“单次调度”和“周期调度”。单次统计选择“单次调度”即可。 单击“提交”,进入质量作业列表页面。 图5
享版集群。 新建数据服务审核人 在创建API前,需要新建数据服务审核人。 创建API 创建API即生成API和注册API。其中,生成API支持两种方式(配置方式生成API和脚本/MyBatis方式生成API)。 调试API API创建后需要验证服务是否正常,管理控制台提供了调试功能。
指标定义 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和所属流程两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
、GBASE、HETUENGINE、ORACLE、RDS、DORIS 计算数据表中指定字段的唯一值行数。 字段重复值 计算数据表中指定字段的重复值行数(当有多个不同的重复值时,以所有重复值个数的和作为该字段的重复值行数)。 多字段唯一性校验 HIVE、SparkSQL、DLI、DWS、GBASE、HETUENGINE