检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据采集架构 迁移中心(MgC)采集数据的方式主要包括以下两种: 利用Edge远程在线采集 通过调用API在线采集云平台资源 利用Edge远程在线采集 适用于公有云、私有云(如VMware、Hyper-V等虚拟化环境)以及数据中心(IDC)部署,或者以上部署方式的混合场景。迁移中心
创建RVTools导入任务 MgC MgC OfflineCollectionAgencyPolicy obs:object:GetObject(获取对象内容、获取对象元数据) obs:bucket:ListBucket(列举桶内对象) obs:bucket:ListAllMyBuckets
已注册华为账号并开通华为云,并获取账号的AK/SK。 已在MgC控制台创建迁移项目。 使用须知 源端主机需要对安装Edge的Windows主机开放指定端口: Windows开放5985端口。 Linux开放22端口。
已注册华为账号并开通华为云,并获取账号的AK/SK。 已在MgC控制台创建迁移项目。 安装步骤 使用在源端内网环境准备好的Linux主机,登录迁移中心管理控制台。 在左侧导航栏单击“迁移工具”,进入迁移工具页面。
确认调整无误后,单击“确定”,完成目的端磁盘分区调整。 单击右下角的“下一步:目的端配置”,进入目的端配置页签。
分别创建源端执行机连接和目的端执行机连接,方法请参考创建执行机连接。 分别创建源端Delta统计任务和目的端Delta统计任务并执行,方法请参考创建统计任务并执行校验。
可以登录目的端集群的FusionInsight Manager,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”,搜索“https_port”参数获取。 分别创建源端和目的端MRS ClickHouse统计任务并执行,方法请参考创建统计任务并执行校验。
迁移对源端和目的端有什么要求? 迁移会占用源端和目的端大量的QPS(每秒查询率)和带宽。因此,建议在迁移前先进行测试,以评估实际迁移过程中源端和目的端的QPS和带宽占用情况。如果占用率过高,请调整源端和目的端QPS和带宽限制,以确保对现有业务的影响最小化。 父主题: 存储迁移
如果您是首次使用MgC的主机迁移工作流,需要您同意华为云账号进行相关的委托授权。委托权限所包含的细粒度权限请前往委托权限说明查看。 使用须知 在创建主机迁移工作流前,请仔细阅读并了解以下使用须知内容。 项目 须知 源端下载带宽 用于源端服务器下载迁移Agent。
创建并运行数据湖元数据同步任务 利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。 Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake
单击目的端规格配置框中的“目的端配置表”按钮,进入目的端配置表页面。 在资源配置明细区域的主机页签,单击已完成规格评估主机购买状态列的“添加至购买列表”,购买状态变为“待购买”。 添加完成后,在页面上方的购买列表框中,单击“查看列表”按钮,进入购买列表页面。
创建源端云服务连接 对大数据云服务数据进行一致性校验时,需要分别与源端和目的端云服务建立连接,用于数据查询和计算。 目前支持创建源端连接的大数据云服务包括: MaxCompute 阿里云云数据库ClickHouse 操作步骤 登录迁移中心管理控制台。
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:Edge上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过Edge线下采集的信息会被安全地保存在本地。
在后续进行目的端规格评估时,可以根据采集到的源端主机实际性能负载推荐目的端主机CPU核数、内存大小等性能规格。 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。
创建弹性文件系统 在目的端创建相应的弹性文件系统,用于迁移后的数据存储和管理,方法请参见创建弹性文件系统。 父主题: SFS1.0迁移至SFS 3.0
查看并导出校验结果 当源端与目的端的统计任务都执行完成后,在校验结果页面可以查看并导出任务的执行结果。校验结果将按照任务开始执行的日期进行分批,如果单日多次执行校验任务,系统只会保留最后一次的校验结果,之前的执行结果会被后续的执行所覆盖。 前提条件 已创建统计任务并执行校验。
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。 在用户列表,选择要在Edge添加凭证的用户,单击操作列“更多>下载认证凭据”,可以下载凭证文件中的
创建并运行元数据同步任务 利用元数据连接,创建元数据同步任务,将源端数据库的库、表、字段信息同步至迁移中心。 支持创建元数据同步任务的连接类型如下: Hive Metastore连接 Doris连接 HBase连接 ClickHouse连接 Hudi(有元数据)连接 Hudi(无元数据