检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio管理控制台。 单击控制台的“资源管理”页签,进入资源管理页面。 在默认的离线资源管理页签,您可以查看当前实例下的所有CDM集群及其状态、内网地址、公网地址等信息。 单击CDM集群列表中集群名称列的按钮开,可查看该CDM集群的详情信息,例如可用区、虚拟私有云、子网和安全组等网络相关信息,以及规格、集群ID、关联的工作空间等信息。
络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟
格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致,详细操作请参见创建DataArts Studio数据连接。 创建数据连接时,通过不同的集群来进行开发与生产环境的隔离,如图1所示。 图1 创建数据连接时选择不同集群 配置DLI环境隔离。 配置企业模式环境隔离,包含DLI队列配置和DB配置。
置数据目录中元数据的更新方式。 需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据 勾选“更新数
DataArts Studio实例(指DataArts Studio实例中的CDM集群)与DWS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
通过数据质量对比数据迁移前后结果 数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。 本章以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。 前提条件 已在数据仓
包,可以跳过这部分内容。 如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包章节,完成购买数据集成增量包的操作。 集群规格选择“cdm.xlarge”。 集群所属的VPC与MRS所属的VPC一致,同时也要与云专线连通的VPC的一致。 其它参数可以自定义,或者保持默认。 创建CDH
配置。 检测网络连通性:数据连接和资源组配置完成后需要测试整个迁移任务的网络连通性,可通过以下方式进行数据源和资源组之间的连通性测试。 单击展开“源端配置”触发连通性测试,会对整个迁移任务的连通性做校验。 单击源端和目的端数据源和资源组中的“测试”按钮进行检测。 网络连通性检测异
解释说明 即作业A依赖于作业B的相同调度周期的运行实例。周期单位包括分钟、小时、天、周、月这五种,不同调度周期的作业,其允许配置的依赖作业调度周期总结如图1所示。 图1 同周期作业依赖关系全景图 分钟依赖分钟 规则:分钟是最小调度粒度,没有自然分钟周期的概念,依赖策略是往前推一个调度周期找依赖实例。
DM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和RDS网络互通才可以成功创建RDS连接,为确保两者网络互通,CDM集群必须和RDS处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群
更新:当数据重复时 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。 系统中的原有数据为发布状态,则会生成下展数据。 单击“添加文件”,选择编辑完成的导入模板。 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。 单击“关闭”。 导出 可通过导出的方式将衍生指标导出到本地。
迁移准备 前提条件 CDH HBase的版本号小于或等于MRS HBase的版本号。 待迁移的表在迁移过程中不能有写入,Split,Merge等操作。 使用华为云专线搭建CDH集群与华为云VPC之间的专属连接通道。 迁移流程 预估迁移数据量、迁移时间。 输出详细待迁移数据表、文件个数、大小,用于后续校验。
群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与DWS集群所在的网络一致。 如果安全控制原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问云搜索服务集群。
*数据列 您需要勾选一个或多个待脱敏列,并根据不同数据列的数据类型,选择合适的脱敏规则。各类数据源中不同数据类型支持的脱敏规则不同,详见参考:动态脱敏规则介绍。 另外,如果选中的库表列有进行过敏感数据发现并且敏感数据字段的数据状态为“有效”,则将密级和数据分类显示在数据列区域中。 单
"sftp-connector" } ] } 连接参数 FTP和SFTP的连接参数相同。 参数 是否必选 类型 说明 linkConfig.server 是 String FTP或SFTP服务器的地址。 linkConfig.port 是 String FTP或SFTP服务器端口号。
Studio数据集成是一种高效、易用的数据集成服务,围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 数据集成即云数据迁移(Cloud Data Migration,
erties参数说明。 scheduleOffTime 否 String 定时关机的时间,定时关机时系统不会等待未完成的作业执行完成。 vpcId 否 String 指定虚拟私有云ID,用于集群网络配置。 name 否 String 集群名称。 sys_tags 否 Array of
一个空间可以创建同一数据源的多个连接吗? 工作空间内允许创建多个同一数据源的连接,但是连接的名字不能相同。 需要注意的是,为便于后续开发过程中选择到正确的数据连接,建议您为连接做好命名区分,避免出现混淆。 父主题: 管理中心
原子指标是对指标统计逻辑、具体算法的一个抽象。为了从根源上解决定义、研发不一致的问题,指标定义明确设计统计逻辑(即计算逻辑),不需要ETL二次或者重复研发,从而提升了研发效率,也保证了统计结果的一致性。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一
CDM支持的监控指标 功能说明 云监控服务(Cloud Eye)可以监控和查看云服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。 当您创建了CDM集群后,云监控服务会自动关联CDM的监控指标,帮助您实时掌握CDM集群的各项性能指标,精确掌握CDM集群的运行情况。 本章