检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Hbase校验不支持纯冷数据表。 在进行Hive 2
行解析,提取出有用的信息,并将其保存到数据库中。 准备工作 华为账号准备 使用MgC之前,您需要拥有一个华为账号或一个可用于访问MgC的IAM用户,注册华为账号以及创建IAM用户的方法请参考准备工作。 创建应用迁移项目 在MgC控制台为本次采集创建独立的项目(建议创建简单项目),方法请参考项目管理。
为什么MgC迁移进度和SMS迁移进度显示不一致? MgC主机工作流的迁移进度和SMS任务的迁移进度不一致是因为两者的步骤划分和计算进度的方式不同。SMS任务的迁移总进度是根据具体的任务阶段来划分的,而MgC主机工作流则是通过一个更简单的计算方法来估算进度。 SMS迁移任务总进度划分 SMS任务迁移总进度分为以下几个阶段:
创建源端云服务连接 对大数据云服务数据进行一致性校验时,需要分别与源端和目的端云服务建立连接,用于数据查询和计算。 目前支持创建源端连接的大数据云服务包括: MaxCompute 阿里云云数据库ClickHouse 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入
vector %s 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:no more field nodes for for field %s and vector %s 解决方法 基于源端表创建临时表,使用临时表进行数据迁移。 父主题: 大数据数据迁移
创建目的端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。
MySQL凭证:选择访问MySQL数据库的认证信息。认证信息需要添加到Edge然后同步到MgC,方法请参考添加资源凭证。 MySQL节点IP:输入MySQL数据库服务器的IP地址。 MySQL服务端口:输入MySQL数据库服务的端口号。 数据库名:输入存储Hive表元数据的数据库名称。 说明:
源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Hbase校验不支持纯冷数据表。 在进行Hive 2
连接成功后,您可以在迁移中心控制台进行以下操作: 创建资源采集任务:通过公网发现源端多种类型资源,支持对主机、容器、对象存储和数据库等资源进行深度采集。 创建主机迁移工作流:进行主机迁移,MgC提供高灵活、可定制的迁移工作流,根据采集的源端主机性能数据,推荐最合适的华为云主机规格。
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
创建源端连接 创建源端云服务连接 创建源端组件连接 父主题: 大数据校验
登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。 在功能入口区域,单击“连接管理”,进入连接管理页面。 单击页面右上角的“新增连接”,右侧弹出新增连接窗口。 根据实际情况选择大数据云服务,单击“下一步”,进入详细配置页面。
DLI凭证 选择DLI云服务的凭证。凭证的添加方法请参考添加资源凭证中的大数据-DLI。如果所选凭证与登录迁移中心账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域/项目 选择需要校验的数据所在区域/项目。 队列名称
Spark应用每个Executor的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 numExecutors 1-100 Spark应用Executor的个数。该配置项会替换“sc_type”中对应的默认参数。 executorMemory 1-16 G Spark应用的Executor内存,参数配置例如:2G
当集群的插件版本有更新时,可以一键升级集群插件版本。在集群列表中,单击操作列的“更多 > 升级插件版本”,即可将集群插件升级为最新版本。 删除集群 当您完成数据迁移并且集群不再需要时,可以直接删除闲置的集群以释放资源。 在集群列表,选择需要清理的集群,单击操作列的“更多 > 删除”,弹出删除集群窗口。
数据流:数据流涉及从源端到目的端的数据传输。为确保数据流的畅通,需要检查目的端服务器的安全组配置,确保目的端安全组对源端IP开放了指定的迁移端口。如果源端主机无法直接访问公网或与目的端直接通信,需要配置代理服务器。在这种情况下,需要额外考虑以下因素: 代理服务器的配置,确保它能够正确转发源端主机的流量。
选择迁移项目。 在应用列表,单击应用名称,进入应用详情页面。 在资源列表的数据库页签,单击列表上方的“添加资源”按钮,弹出添加数据库窗口。 图2 添加数据库资源 根据表2,填写相应参数。 表2 添加数据库参数配置说明 参数 说明 名称 用户自定义 采集设备 选择在源端注册并与迁移中心连接的Edge。
创建源端连接 创建源端云服务连接 创建源端组件连接 父主题: 大数据校验
手动添加资源 支持在应用内手动添加主机和Oracle数据库两种资源类型。通过在源端环境中安装MgC Agent(原Edge)进行资源采集。 准备工作 在MgC控制台创建项目。 在源端内网环境安装MgC Agent,并与迁移中心连接。 在MgC Agent上添加源端资源凭证。 已在应用管理页面创建应用。
导入工具采集结果 通过线下采集器,采集本地资源信息,并将采集结果上传到迁移中心进行应用关联分析。 前提条件 已创建工具采集任务,并获取采集结果。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的应用迁移项目。 单击左侧导航栏的“源端发现>资源采集”,进入资源采集页面。