检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ecs:servers:list(查询云服务器列表) ecs:cloudServers:list(查询云服务器详情列表) ecs:servers:stop(关闭云服务器) ecs:cloudServers:listServerInterfaces(查询云服务器网卡信息) ecs:cloudServers:createServers(创建云服务器)
准备工作 华为账号准备 使用MgC之前,您需要拥有一个华为账号或一个可用于访问MgC的IAM用户,并获取账号/IAM用户的访问密钥(AK/SK)。获取方法请参考准备工作。 创建迁移项目 在MgC控制台为本次迁移创建独立的项目,方法请参见项目管理。 创建弹性文件系统 在目的端创建相
安全组配置说明。 费用说明 在创建迁移集群时,会产生以下费用: 创建Master节点、迁移节点和列举节点会产生ECS服务费用。具体计费详情请参见ECS按需计费说明或ECS价格计算器。 如果您使用公网迁移时,会产生NAT网关服务费用。计费详情请参见NAT网关计费说明或NAT价格计算器。
务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移
导入工具采集结果 单击导入窗口的“添加文件”,将工具采集结果的json文件上传至迁移中心。 上传成功后,单击“确认”按钮,系统自动开始采集。 您可以在任务列表页面,查看任务状态。 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原
如何查看采集失败原因? 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 父主题: 资源采集
接口返回:MgC接收API调用的返回值,这些返回值通常包含丰富的资源数据。 解析数据:MgC将返回的数据进行解析,提取关键信息,如节点数、虚拟机核数等。然后将这些关键信息保存到数据库中,为后续分析和迁移提供支持。 深度采集原理 MgC对AWS 容器资源进行深度采集的原理图,如图2所示。 图2 AWS容器深度采集原理图
使用SSL连接,填写CA证书文件(.pem)路径。建议使用一组特定的CA证书,而不是由知名机构颁发签署的服务器证书。 ssl_client_private_key_password 否 如果证书密钥文件中包含的私钥已加密,则需要填写密码或口令短语。 ssl_client_certificate_key_file
Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 父主题: 大数据数据迁移
MS控制台的迁移服务器列表创建一条迁移任务,关于MgC和SMS主机资源之间的映射关系请查看MgC主机工作流资源与SMS迁移服务器列表之间的映射关系。 将鼠标移动到主机迁移进度条,在弹窗中可以查看该主机更多迁移信息。 当迁移步骤(进度条)到达需要手动确认的步骤时,将鼠标移动到进度条
列表中可以查看任务的数据源采集状态。 数据源采集成功后,可以通过如下方式获取采集结果: 单击任务操作列的“下载json”,将采集结果保存为json文件,用于将采集结果导入MgC进行应用关联分析,详情请参考导入工具采集结果。 单击任务操作列的“下载csv”,将采集结果保存为csv文件,用于本地查看采集结果。
Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Lindorm、Hbase校验不支持纯冷数据表。 在进行Hive 2.x与Hive 3.x版本间数据校验时,由于Hive 2.x版本在查询固定长度字符串
华为云使用费用,为您云间迁移提供参考。 目前支持通过凭证进行上云成本分析的源端云厂商包括:AWS、阿里云。 进行上云成本分析时,请确保服务器数量不超过9999台。 创建分析任务 登录迁移中心管理控制台。 单击左侧导航栏“调研>上云调研”,进入“上云调研”页面。在页面左上角的当前项目下拉列表中选择迁移项目。
vector %s 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:no more field nodes for for field %s and vector %s 解决方法 基于源端表创建临时表,使用临时表进行数据迁移。 父主题: 大数据数据迁移
COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark.sql.dynamicPartitionOverwrite
创建目的端云服务连接 对大数据云服务数据进行一致性校验时,需要分别与源端和目的端云服务建立连接,用于数据查询和计算。 目前支持创建目的端连接的大数据云服务包括: 数据湖探索(DLI) CloudTable(ClickHouse) CloudTable(HBase) 操作步骤 登录迁移中心管理控制台。
建议在源端内网环境中准备一台Windows主机,用于安装迁移工具Edge,对该主机的要求以及Edge的安装方法请参见安装Windows版本的Edge。 不建议将Edge安装在源端待迁移的主机上,主要原因包括: 资源消耗:Edge在采集和迁移运行过程中会消耗CPU和内存资源。在迁移任务量大时,这可能会对源端的业务运行造成影响。
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
务的接口域名。这通常涉及到在每台源端主机上编辑hosts文件。如果迁移的主机数量众多,手动编辑将非常耗时。为了简化这一过程,我们提供了一个批量修改的脚本示例。您可以利用这个脚本,快速地将域名解析IP批量推送到所有源端主机的hosts文件中。 脚本说明 脚本是基于Shell语言开发
上传成功后,单击“确认”按钮,系统自动开始采集。 您可以在任务列表页面,查看任务状态。 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。处理完失败原因后,需要删除该采集任务,重新导入文件进行采集。 当任务状态为“成功”时,您可以前往应用管理页面,查看应用关联分析结果。