检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据迁移概述 迁移场景 将阿里云 MaxCompute数据迁移至华为云数据湖探索(DLI)。 数据迁移原理图 图1 大数据数据迁移原理图 迁移操作流程 图2 大数据数据迁移流程图 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
大数据校验 新增大数据校验数据连接时,凭证列表数据缺失 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务? 创建HBase目的端连接安全集群下的换包操作指南
创建HBase目的端连接安全集群下的换包操作指南 操作场景 本指导介绍在创建HBase目的端连接且集群部署在安全集群下时,需要进行的换包操作及相关步骤。 操作步骤 换包操作。 在安装MgC Agent的主机,执行如下命令,进入MgC Agent指定目录。 cd /opt/cloud/Edge/to
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集 父主题: 旧版
0版本普通集群使用YARN模式的换包操作指南 操作场景 本指导介绍在创建HBase全量校验或指定时间校验任务时,使用YARN模式需要进行的换包操作及相关步骤。 操作步骤 在安装MgC Agent的主机,执行如下命令,进入MgC Agent指定目录。 cd /opt/cloud/Edge/too
迁移对源端和目的端有什么要求? 迁移会占用源端和目的端大量的QPS(每秒查询率)和带宽。因此,建议在迁移前先进行测试,以评估实际迁移过程中源端和目的端的QPS和带宽占用情况。如果占用率过高,请调整源端和目的端QPS和带宽限制,以确保对现有业务的影响最小化。 父主题: 存储迁移
在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI
您可以参考方法一或方法二,在目的端主机进行处理。 方法一: 登录目的端主机,在开始菜单打开“运行”输入框。 输入“diskmgmt.msc”,按“Enter”,进入磁盘管理页面。 在磁盘管理页面,可以看到数据盘处于“脱机”状态。 图1 脱机 使用鼠标右键单击“脱机”的数据盘,会出现联机的菜单,单击联机即可恢复正常。
采集的源端主机性能数据,推荐最合适的华为云主机规格。 创建大数据迁移任务:进行大数据迁移,支持将阿里云 MaxCompute数据迁移至华为云 数据湖探索(DLI)。 创建大数据校验任务:对大数据进行一致性校验。 约束与限制 单个账号允许同时在线的MgC Agent总数最多为100个。
列表中选择在完成准备工作时创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。 单击页面右上角的“连接管理”按钮,进入迁移准备页面。 单击“创建连接”,右侧弹出新增连接窗口。 图1 创建连接 连接类型选择“数据湖探索 (DLI)”,单击“下一步”,进入详细配置页面。
通过VMware扫描发现的主机会自动采集指定周期内的主机性能数据,无需再配置性能采集。VMware扫描方式采集的性能数据来源于vCenter中留存的历史样本统计数据。vCenter历史样本统计数据的默认留存策略为: 最近1天:每5分钟留存一条数据。 最近1周:每30分钟留存一条数据。 最近1月:每2小时留存一条数据。
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:MgC Agent上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过MgC Agent线下采集的信息会被
MaxCompute凭证输入源端阿里云账号的AK/SK。 数据湖DLI凭证输入目的端华为云账号的AK/SK。 创建OBS桶并上传jar包 在华为云OBS创建一个存储桶,并将数据迁移过程中所依赖的 Java 文件(jar包)上传至该OBS桶。创建OBS桶的方法请参考创建桶。上传文件的方法请参考上传对象。 数据迁移所依
将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入。在库表清单列表中可以查看导入的数据表。 导出数据表 支持将Delta Lake和Hudi有元数据的数据表导出为CSV格式。无元数据的数据表不支持导出。 在表管理页面,选择库表清单页签。 单击列表上方的“导出 >
请提交工单到VPC服务,并提供以下信息进行开通: 华为云账号名、目的端DLI服务所在Region的项目ID:获取方法请参考API凭证。 DLI服务的租户名以及租户的项目ID:请联系DLI服务的技术支持人员获取。 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入。在库表清单列表中可以查看导入的数据表。 导出数据表 支持将Delta Lake和Hudi有元数据的数据表导出为CSV格式。无元数据的数据表不支持导出。 在表管理页面,选择库表清单页签。 单击列表上方的“导出 >
匹配。 元数据迁移与库的数量 在进行元数据迁移时,MgC会根据识别到的源端数据库的数量,在DLI中自动创建相应的库。如果是整库迁移,通常只会创建一个库;而表迁移可能需要创建多个库。通常,DLI的库数量上限为10。如果DLI空间不足,可能会导致元数据迁移失败,因此在元数据迁移前,需
中间件、数据库、存储等资源可直接进行迁移方案设计。支持对AWS RDS(包括MySQL、MariaDB、Aurora、PGSQL、SQLServer、Oracle)和AWS DocumentDB数据库进行深度采集,以获取数据库更详细的信息。 对象存储资源可以进行深度采集和迁移方案配置。
本文介绍在应用详情内,对应用中的主机资源进行性能采集的操作方法。 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。 采集周期默认为7天,7天后会自动停止采集;采集周期内可以进行停止采集和重启采集操作;重启采集后,采集周期重新计算。
通过创建独立的项目,可以将不同的操作场景进行区分和隔离,从而实现更好的组织管理和资源分配。包含的项目类型和对应的使用场景说明如下: 应用迁移项目:适用于需要进行主机、存储等资源的采集、迁移场景。 复杂迁移(大数据迁移)项目:适用于需要进行大数据迁移和大数据一致性校验等复杂数据处理场景。