检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小
根据实际需求,选择已创建的元数据连接类型。 数据库名 用户自定义。 数据表名 用户自定义。 源表路径(可选) 元数据连接为Delta时,为必填项。 输入源端数据表在数据库中的存放路径。 目标表路径(可选) 元数据连接为Delta(无元数据)时,为必填项。 输入目的端数据表在数据库中的存放路径。
阿里云主机迁移至华为云 概述 准备工作 步骤一:下载并安装Edge 步骤二:采集阿里云ECS主机资源 步骤三:评估迁移准备度 步骤四:目的端规格评估 步骤五:创建主机迁移工作流 父主题: 主机迁移相关最佳实践
MgC利用部署在源端网络中的Edge设备完成数据采集。 数据采集架构图,如图1所示。 图1 Edge远程在线采集架构图 通过调用API在线采集云平台资源 适用于公有云部署场景,针对不同云服务提供商(友商)的云资源进行数据采集。使用API接口与其它云服务提供商的系统进行交互,实现数据的在线采集。不需要在源端网络中安装Edge设备。
添加/修改华为云凭证 在使用迁移中心工作流进行迁移时,需要将华为云凭证推送给源端迁移Agent,如果缺少华为云凭证,迁移工作流无法正常运行。 添加华为云凭证 如果在连接迁移中心时,未选择保存华为云凭证,连接成功后,可以添加华为云凭证。 在Edge凭证管理界面,单击“华为云凭证”前
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
面,查看任务状态。如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 步骤二:关联应用 如果在采集可用区主机资源的步骤6.已经为主机关联了应
创建并运行数据湖元数据同步任务 利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。 Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
SFS1.0迁移至SFS 3.0 使用须知 准备工作 创建集群 (可选)网络打通 创建存储迁移工作流 (可选)清理集群 父主题: 存储迁移相关最佳实践
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
虚拟私有云 存储 对象存储 文件存储 腾讯云 主机 数据库 - 存储 对象存储 文件存储 Azure 主机 容器 数据库 - 存储 对象存储 文件存储 中间件 Redis Kafka 网络 弹性公网IP 路由表 安全组 公网NAT网关 虚拟私有云 负载均衡(ELB) 七牛云 存储 对象存储
对于空文件夹,覆盖策略与文件相同。 迁移元数据 - 选择是否迁移元数据。 勾选,则迁移源端对象元数据。 不勾选,仅迁移ContentType元数据。 (可选)根据表2,配置高级选项。 表2 高级选项参数说明 参数 说明 目的端存储类型 选择迁移到华为云OBS后,对象的存储类型。存储策略说明请参见存储类型介绍。 KMS加密
虚拟私有云 存储 对象存储 文件存储 腾讯云 主机 数据库 - 存储 对象存储 文件存储 Azure 主机 容器 数据库 - 存储 对象存储 文件存储 中间件 Redis Kafka 网络 弹性公网IP 路由表 安全组 公网NAT网关 虚拟私有云 负载均衡(ELB) 七牛云 存储 对象存储
根据源端存储类型,选择华为云对应的存储类型。 - AK 输入目的端华为云账号的访问密钥。 数据站点类型选择华为云OBS时填写。 SK 输入目的端华为云账号的私有密钥。 桶 选择目的端OBS桶。 对象存储终端地址 输入目的端OBS桶所在区域的终端节点(Endpoint)信息。例如:目的端桶所在区域为华北-北京四,则输入“obs
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
血缘采集 血缘采集概述 创建血缘采集任务 查看血缘关系 父主题: 大数据血缘
后台处理:即使进度没有实时更新,迁移过程也可能在后台继续进行。进度条的更新可能存在延迟。 解决方案 请耐心等待,尤其是当迁移包含大量数据时。 如果长时间未更新,可以联系技术支持人员以排查潜在问题。 父主题: 存储迁移
-90%的阈值,则需要及时联系目的端厂商进行调整。 对于源端桶和目的端桶,可以在对应的存储服务控制台查看QPS和出入流量的指标。以华为云OBS为例,查看方法请参考查看桶用量统计。 父主题: 存储迁移