检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品架构 如图所示,DataArts Studio基于数据底座,提供数据集成、开发、治理等能力。DataArts Studio支持对接所有华为云的数据湖与数据库云服务作为数据底座,例如MRS Hive、数据仓库服务DWS等,也支持对接企业传统数据仓库,例如Oracle、MySQL等。
id。 资产guid可通过相应查询接口获取,也可以通过控制台获取,推荐您通过相应查询接口获取。 控制台获取操作相对复杂,如下所示,为您介绍如何通过控制台获取guid资产: 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择“数据地图”或对应工作空间的“
(可选)新建数据库模式 DWS数据连接创建完成后,可以在右侧区域中管理DWS数据连接的数据库模式。 如果已有的数据库模式满足您的使用需求,则您可以跳过本章节;否则,请您按照本章节描述新建数据库模式。 前提条件 已新建DWS数据连接,请参见新建数据连接。 已新建DWS数据库,请参见新建数据库。
在本用户账户下创建虚拟私有云和子网,作为中转VPC,详情请参见创建虚拟私有云和子网。如当前账户已有可用VPC,可以跳过本步骤。 在华为云购买并配置云专线或VPN虚拟专用网络。 为了连通其他云计算环境与华为云计算环境,可以通过开通云专线或虚拟专用网络来实现。 购买和配置云专线DC的相关操作,可以参考通过云专线
创建并管理工作空间 购买DataArts Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 DataArts Studio实例内的工作空间作为成员管理、
中单击指定资源组的下拉框,查看该资源组的VPC网段。 图4 查询资源组网段 172.16.0.0/19 网络配置流程 配置华为云数据库所在安全组规则。 华为云数据库所在安全组需要增加入方向规则,放通Migration资源组VPC网段(例如172.16.0.0/19),使其可以访问数据库监听端口。
替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 导入前清空数据 导入前是否清空表中的数据。 是:清空表中数据。 否:不清空。 否 高级属性 Rowkey冗余 是否将选做Rowkey的数据同时写入HBase的列。 否 WAL开关
数据治理框架 数据治理框架 数据治理模块域 数据治理各模块域之间的关系
配置DataArts Studio数据连接参数 DWS数据连接参数说明 DLI数据连接参数说明 MRS Hive数据连接参数说明 Apache Hive数据连接参数说明 MRS HBase数据连接参数说明 MRS Kafka数据连接参数说明 MRS Spark数据连接参数说明 MRS
数据集成概述 DataArts Studio数据集成是一种高效、易用的数据集成服务,围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 数据集成即云数据迁移(Cloud
配置增量元数据采集任务 配置、运行采集任务是构建数据资产的前提,下面举例说明如何通过配置采集任务达到灵活采集元数据的目的。 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3
数据服务专享版集群正式商用后,如何继续使用公测期间创建的数据服务专享版集群和API? API传参是否支持传递操作符? 工作空间内的API配额已满,无法新建API怎么解决? 数据服务专享版的API如何通过公网访问? 数据服务专享版的API怎样通过域名访问? 如何处理API对应的数据表数据
中单击指定资源组的下拉框,查看该资源组的VPC网段。 图2 查询资源组网段 172.16.0.0/19 网络配置流程 配置华为云数据库所在安全组规则。 华为云数据库所在安全组需要增加入方向规则,放通Migration资源组VPC网段(例如172.16.0.0/19),使其可以访问数据库监听端口。
配置数据表权限(待下线) 在已上线数据安全组件的区域,数据目录中的数据权限功能已由数据安全组件提供,不再作为数据目录组件能力。当前数据目录中的数据权限功能仅限于存量用户使用。 数据安全组件当前在华东-上海一、华东-上海二、华北-乌兰察布一、华北-北京四、华南-广州和西南-贵阳一区域部署上线。
数据质量API 目录接口 规则模板接口 质量作业接口 对账作业接口 运维管理接口 任务实例接口 质量报告接口 导入导出接口
drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“
中单击指定资源组的下拉框,查看该资源组的VPC网段。 图4 查询资源组网段 172.16.0.0/19 网络配置流程 配置华为云数据库所在安全组规则。 华为云数据库所在安全组需要增加入方向规则,放通Migration资源组VPC网段(例如172.16.0.0/19),使其可以访问数据库监听端口。
中单击指定资源组的下拉框,查看该资源组的VPC网段。 图3 查询资源组网段 172.16.0.0/19 网络配置流程 配置华为云数据库所在安全组规则。 华为云数据库所在安全组需要增加入方向规则,放通Migration资源组VPC网段(例如172.16.0.0/19),使其可以访问数据库监听端口。
LI中自动创表,这里的表需要先在DLI中创建好,且该表的字段类型和格式,建议与待迁移数据的字段类型、格式保持一致。 导入前清空数据:导入数据前,选择是否清空目的表中的数据,这里保持默认“否”。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。
步骤3:数据开发处理 本步骤通过电影信息和评分信息的原始数据,分析评分最高的Top10电影和最活跃的Top10电影,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 评分最