检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
欢迎使用数据治理中心DataArts Studio服务。DataArts Studio是针对企业数字化运营诉求提供的数据全生命周期管理、具有智能数据管理能力的一站式治理运营平台,包含数据集成、数据架构、数据开发、数据质量、数据目录、数据服务等功能,支持行业知识库智能化建设,支持大数据存
Studio企业版)、创建工作空间等一系列操作。然后进入到对应的工作空间,即可开始使用DataArts Studio。 数据源准备 本入门示例以某电商商城的BI报表数据为例,分析用户和商品的各种数据特征。 为方便演示,本示例提供了用于模拟原始数据的部分数据。为了方便将源数据集成到云上,我们
连接方式应该选择API连接还是代理连接? API连接仅支持在数据开发组件使用。 因此如无特殊需求,为保证数据架构、数据质量、数据目录、数据服务等组件能够使用连接,推荐配置为“通过代理连接”。 父主题: 管理中心
联系客服或技术支持人员。 作业委托 当“作业调度身份是否可配置”设置为“是”,该参数可见。 配置委托后,作业执行过程中,以委托的身份与其他服务交互。 作业优先级 自动匹配创建作业时配置的作业优先级,此处支持修改。 实例超时时间 配置作业实例的超时时间,设置为0或不配置时,该配置项
Resource节点按需开启或关闭华为云服务。 参数 用户可参考表1和表2配置Open/Close Resource节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是 节点名称,可以包含中文、英文字母、数字、“_”、“-”、“/”、“<”、“>”等各类特殊字符,长度为1~128个字符。 服务 是 选择需要开机/关机的服务:
DRS任务切换到实时Migration作业配置 DRS(数据复制服务)任务迁移到Migration,完成作业切换和数据续传。 前提条件 已创建DRS实时同步任务,DRS相关操作请参见数据复制服务。 已按使用前自检概览准备好实时数据集成环境。 准备动作 Migration所需资源估算。
基本概念 账号 用户的账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。
开发并调度作业,通过编排作业和配置作业调度策略,定期执行作业,使得用户可以每天获取到最新的Top10电影结果。 服务退订,如果不再使用DataArts Studio及相关服务,请及时进行退订和资源删除。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
数据架构操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 资源名称 事件名称 查看主题设计 DAYU_DS dsSubject
数据集成操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建集群 cluster createCluster
志显示时间比本地时区时间少8个小时。因此在CDM迁移数据到云搜索服务的时候,如果是通过CDM自动创建的索引和类型(例如图2中,目的端的“date_test”和“test1”在云搜索服务中不存在时,CDM会在云搜索服务中自动创建该索引和类型),则CDM默认会将时间类型字段的格式设置为“yyyy-MM-dd
在弹出的“导出作业”界面,选择需要导出的作业范围和状态,单击“确定”,可以在下载中心查看导入结果。 图2 导出作业 导入作业 导入作业功能依赖于OBS服务,如无OBS服务,可从本地导入。 从OBS导入的作业文件,最大支持10Mb;从本地导入的作业文件,最大支持1Mb。从本地导入的作业文件, 解压后大小最大支持1Mb。
群之间网络互通。 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络。请确保数据源所在的主机和CDM集群均能访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
数据治理框架 数据治理框架 数据治理模块域 数据治理各模块域之间的关系
管理工作空间 创建并管理工作空间 设置工作空间配额 (可选)修改作业日志存储路径
授权用户使用DataArts Studio 创建IAM用户并授予DataArts Studio权限 (可选)自定义工作空间角色 添加工作空间成员和角色
购买DataArts Studio实例 购买DataArts Studio基础包 (可选)购买DataArts Studio功能增量包 (可选)购买规格增量包
数据迁移进阶实践 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导
增量迁移原理介绍 文件增量迁移 关系数据库增量迁移 HBase/CloudTable增量迁移 MongoDB/DDS增量迁移 父主题: 数据迁移进阶实践
数据开发进阶实践 周期调度依赖策略 离散小时调度与作业最近依赖调度逻辑 补数据场景使用介绍 作业调度支持每月最后一天 获取SQL节点的输出结果值 IF条件判断教程 获取Rest Client节点返回值教程 For Each节点使用介绍 数据开发调用数据质量算子并且作业运行的时候需要传入质量参数