检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS数据迁移到云搜索服务 操作场景 CDM支持在云上各服务之间相互迁移数据,本章节介绍如何通过CDM将数据从OBS迁移到云搜索服务中,流程如下: 创建CDM集群 创建云搜索服务连接 创建OBS连接 创建迁移作业 前提条件 已获取OBS的访问域名、端口,以及AK、SK。 已经开通
Studio实例过程中申请VPC、子网和安全组。 VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。 登录DataArts Studio控制台 登录华为云控制台。 在控制台左上方,单击“服务列表”按钮,选择“数据治理中心”,进入DataArts Studio控制台。 购买DataArts Studio基础包
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长,数据处理逻辑复杂,投资大;
不归档:不对脏数据进行存储,仅记录到任务日志中。 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。
成数据质量精细化管控文化。根据数据治理领导组的愿景和长期目标,建立和管理数据治理流程、阶段目标和计划,设计和维护数据治理方法、总则、工具和平台,协助各数据领域工作组实施数据治理工作,对整体数据治理工作进行度量和汇报,并对跨领域的数据治理问题和争议进行解决和决策。 各领域数据治理工
Studio(包括管理中心、CDM等组件)需要与MRS、OBS等服务互通时,如果DataArts Studio与其他云服务处于不同区域的情况下,需要通过公网或者专线打通网络;而在同区域情况下,同子网、同安全组的不同实例默认网络互通。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。 详情请参见什么是可用区。
本地MySQL数据库可通过公网访问。如果MySQL服务器是在本地数据中心或第三方云上,需要确保MySQL可以通过公网IP访问,或者是已经建立好了企业内部数据中心到云服务平台的VPN通道或专线。 已创建CDM集群。 新建MySQL连接器 进入CDM主界面,单击左侧导航上的“集群管理”,选择CDM集群后的“作业管理
如果Elasticsearch服务器是在本地数据中心或第三方云上,需要确保Elasticsearch可通过公网IP访问,或者是已经建立好了企业内部数据中心到华为云的VPN通道或专线。 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studi
HDFS数据迁移到OBS 操作场景 CDM支持文件到文件类数据的迁移,本章节以MRS HDFS-->OBS为例,介绍如何通过CDM将文件类数据迁移到文件中。流程如下: 创建CDM集群并绑定EIP 创建MRS HDFS连接 创建OBS连接 创建迁移作业 前提条件 已获取OBS的访问域名、端口,以及AK、SK。
选择“集群 > > 待操作的集群名称 > 概览 > 更多 > 下载客户端”,界面显示“下载集群客户端”对话框。 对话框中选择“仅配置文件”,平台类型和服务端保持一致,其他保持默认即可,单击确认后进行本地下载。 获取下载的tar包,此即为FusionInsight集群配置文件。 针对MRS
MySQL数据迁移到OBS 操作场景 CDM支持表到OBS的迁移,本章节以MySQL-->OBS为例,介绍如何通过CDM将表数据迁移到OBS中。流程如下: 创建CDM集群并绑定EIP 创建MySQL连接 创建OBS连接 创建迁移作业 前提条件 已获取OBS的访问域名、端口,以及AK、SK。
配置OBS桶 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。请参考本节操作配置OBS桶。 约束限制 OBS路径仅支持OBS桶,不支持并行文件系统。 配置方法 参考访问DataArts Studio实例控制台,登录DataArts
批量资产关联分类 功能介绍 批量资产关联分类:只支持对数据表的列和OBS对象添加分类。 调用方法 请参见如何调用API。 URI POST /v3/{project_id}/asset/entities/classification 表1 路径参数 参数 是否必选 参数类型 描述
驱动程序名称: com.mysql.jdbc.Driver org.postgresql.Driver driverPath 是 String 驱动在OBS上路径。 表8 CloudTable类型的连接配置项说明 参数名 是否必选 参数类型 说明 clusterName 是 String CloudTable集群名称
开发一个Python作业 本章节介绍如何在数据开发模块上开发并执行Python作业示例。 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带
配置Oracle目的端参数 作业中目的连接为Oracle数据库连接时,目的端作业参数如表1所示。 表1 Oracle作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。
和密码。 如果Oracle数据库是在本地数据中心或第三方云上,需要确保Oracle可通过公网IP访问,或者已经建立好了企业内部数据中心到华为云的VPN通道或专线。 已在CDM集群的“作业管理 > 连接管理 > 驱动管理”页面,上传了Oracle数据库驱动。 创建CDM集群并绑定EIP
(可选)本地IDC配置VPN对端网关设备。 本地IDC网络采用不同类型的防火墙或主机,可参考《虚拟专用网络快速入门》中的配置对端设备章节实现本地IDC数据库所在网络和华为云Migration资源组VPC网段(例如172.16.0.0/19)的互通。 VPN本端子网添加资源组网段。 为了允许VPN访问资源组网段
配置MongoDB目的端参数 作业中目的连接为MongoDB连接时,目的端作业参数如表1所示。 表1 MongoDB作为目的端时的作业参数 参数名 说明 取值样例 数据库名称 选择待导入数据的数据库。 mddb 集合名称 选择待导入数据的集合,相当于关系数据库的表名。单击输入框后
业参数中会自动增加脚本参数DATE,脚本参数DATE的值支持使用EL表达式。如果是变量时间的话,需要使用DateUtil内嵌对象的表达式,平台会自动转换成历史日期。EL表达式用法可参考EL表达式。 补数据作业除了支持作业参数,脚本参数或者全局环境变量也支持。 约束条件 只有数据开