检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
默认创建名称为“MaxCompute-4位随机数(字母和数字)”,也可以自定义名称。 迁移工具 选择在源端环境中部署的迁移工具Edge。 阿里云凭证 选择源端阿里云账号的凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-MaxCompute”。 项目名称 输入需要采集的MaxCompu
1 允许 IPv4 TCP : 22 198.19.128.0/17 云服OMS云服务和Master节点通信,实现集群安装。 入方向 1 允许 IPv4 TCP : 9002 198.19.128.0/17 云服OMS云服务和Master节点通信,实现任务下发、管理 入方向 1 允许
大数据迁移概述 迁移场景 将阿里云 MaxCompute数据迁移至华为云数据湖探索(DLI)。 数据迁移原理图 图1 大数据数据迁移原理图 迁移操作流程 图2 大数据数据迁移流程图 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
创建目的端连接 创建目的端连接是为了将源端数据写入到华为云DLI。 使用须知 元数据迁移:只需要配置一条连接到DLI SQL队列的连接。 数据迁移:需要配置两条连接,分别为连接到DLI SQL队列的连接和连接到DLI通用队列的连接。 前提条件 已完成准备工作。 操作步骤 登录迁移
为什么存储迁移工作流进度长时间没有变化? 问题分析 出现迁移进度长时间未更新的情况通常是因为以下几个原因: 子任务处理:迁移工作流会自动将大型任务拆分为多个子任务来执行。只有当这些子任务完成后,系统才会更新显示的进度。 大对象迁移:如果子任务中包含了大型文件或对象,可能需要较长时间来迁移。
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
MgC Agent(原Edge)安装完成后,无法启动 Windows版本 Linux版本 父主题: 常见问题
如何获取Azure对象存储深度采集所需凭证? 在对Azure云平台对象存储资源进行深度采集时,需要使用“存储账户”和“密钥”作为采集凭证,本节介绍获取Azure“存储账户”和“密钥”的方法。 登录 Azure 门户中转到存储账户。 在左侧导航栏选择“安全性和网络 > 访问密钥” ,即可看到“存储账户名称”和“密钥”。
1 允许 IPv4 TCP : 22 198.19.128.0/17 云服OMS云服务和Master节点通信,实现集群安装。 入方向 1 允许 IPv4 TCP : 9002 198.19.128.0/17 云服OMS云服务和Master节点通信,实现任务下发、管理 入方向 1 允许
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。 须知: 使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证
≤子网可用IP数 列举节点ECS规格 列举节点用于执行列举动作,推荐规格为C系列规格,大小是8U16G。 网络配置 虚拟私有云 在下拉列表中选择虚拟私有云。 - 子网 选择与虚拟私有云网段相同且满足可用IP数的子网。 子网的可用IP数≥迁移节点数+列举节点数+1。 模式选择 选择内网模式。 同
收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。 须知: 使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证
选择“在线调研”页签,单击“云平台采集”,进入云平台采集参数配置页面。 图1 云平台采集 根据表1,配置公网发现任务参数。 表1 公网发现任务参数说明 区域 参数 说明 是否必选 基础配置 任务名称 自定义发现任务名称。 是 任务说明 输入发现任务说明。 否 任务配置 源端 选择华为云。 是 凭证
影响小对象迁移速度的关键因素有哪些? 在迁移小对象的过程中,以下是一些可能影响小对象迁移速度的因素以及相应的建议: 迁移集群的CPU负载:集群的CPU负载过高,可能会减慢处理小对象迁移的速度。 建议:优化集群的CPU资源分配,或者增加更多的迁移节点来分散负载。 源端和目的端的QP
不同则覆盖。如果源端与目的端对象元数据中不存在CRC64值,则默认使用大小/最后修改时间对比覆盖策略执行。 说明: 目前仅支持华为云、阿里云、腾讯云。 目的端OBS桶需开启CRC64特性白名单。 一致性校验 对象大小与最后修改时间校验 默认配置,通过对比源端和目的端对象大小与最后修改时间,判断迁移后数据是否完整。
选此选项。在域名输入框中输入自定义域名,并选择传输协议。HTTP协议安全级别低于HTTPS协议,推荐使用HTTPS协议。 源端为阿里云OSS、腾讯云COS时,如果使用了CDN鉴权,还需要选择“鉴权类型”并输入“鉴权密钥”。 SMN消息发送配置 选择是否使用SMN消息通知功能,该功能可以通知您迁移任务的结果。
创建文件存储批量迁移工作流 本节介绍如何使用文件存储批量迁移模板,批量创建文件存储数据迁移任务,实现文件存储数据的高效迁移。 约束与限制 关于文件存储迁移的约束与限制请查看存储迁移的约束与限制有哪些? 风险提示 在创建工作流时,对于源端和目的端的同名对象,我们提供了三种覆盖策略:
全量数据迁移 将源端数据库中的所有数据迁移到目的端华为云数据湖探索(DLI)。 使用须知 当迁移的表数量较多或单个表的列数较多时,迁移过程可能会耗费较长时间。 在数据迁移时,如果重复迁移分区数据时提示错误信息:"Do not support update partition SerDeInfo