检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据)
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
对应参数填写到模板内。 每个模板最多支持导入10,000张表。 同一表组内的表必须属于同一个元数据来源。 模板中单元格不允许存在公式且必须是文本格式,否则会导致解析失败。 元数据连接为Delta(有元数据)或Hudi(有元数据)连接时,模板中的source_path参数为必填项。
对应参数填写到模板内。 每个模板最多支持导入10,000张表。 同一表组内的表必须属于同一个元数据来源。 模板中单元格不允许存在公式且必须是文本格式,否则会导致解析失败。 元数据连接为Delta(有元数据)或Hudi(有元数据)连接时,模板中的source_path参数为必填项。
归档存储(0.033|0.1|0.1|0.06) - 阿里云OSS 标准型(0.12|0.01|0.01) 低频访问型(0.08|0.1|0.1|0.0325) 归档型(0.033|0.1|0.1|0.06) 冷归档型(0.015|0.1|0.1|0.2) 优刻得US3 标准类型(0.12|0
端对象桶或创建弹性文件系统。 步骤二:创建集群 迁移集群是专为存储工作流提供协作中的核心组件,通过集群可以创建和管理迁移节点、列举节点,部署和升级迁移插件,确保存储工作流顺利运行。详细说明和创建步骤请参见创建集群。 如果是专线迁移场景,需要在高级设置中添加域名映射配置,对域名和桶域名同时绑定源端专线内网ip。
如何处理? 问题现象 迁移到目的端时,迁移列表报错提示“COMPARISON_ATTRIBUTE_NOT_SAME”。 解决方法 根本原因是元数据校验失败。具体分为两种场景: 场景一: 由于元数据中的mtime属性引起的校验失败。在对象存储数据迁移过程中,如果启用了元数据保留迁移
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
Windows主机迁移后数据盘缺失,如何解决? 问题描述 Windows主机迁移完成后,登录目的端主机发现磁盘数量与源端主机不一致,有数据盘缺失,但在目的端控制台查看磁盘数量正常。 问题分析 出现该问题,可能是因为源端主机的磁盘策略为共享磁盘脱机或者离线模式,迁移后会导致数据盘处于脱机状态。
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
参数 说明 CPU总核数 环境中需要迁移的服务器CPU数量。默认值1000个,1≤取值范围≤99,999,999。 高性能CPU比例 如数据库、流媒体、消息服务器、推理等(C3),华为云对应规格:C7等,默认值为20%。 说明: 持续高性能、成本和性能平衡、成本优先的比例相加为100%。
主机迁移网络要求和配置 背景说明 主机迁移过程中主要涉及的流量分为两部分:控制流和数据流。 控制流:控制流是指源端主机与云服务管理面之间的通信。为确保迁移过程的顺利进行,需要检查源端主机出方向是否有限制,并确保源端主机能够访问迁移过程中依赖的云服务,包括SMS、IAM、ECS、EVS、VPC、IMS等服务的域名。
对象列表文件大小不能超过30 MB。 对象列表文件类型必须为.txt类型,并且元数据ContentType只能为text/plain。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件每行只能包含一个对象名称,且对象名称使用URL Encode编码。 对象列表文件行长度不超过16KB,否则迁移失败。
ClickHouse连接 ClickHouse、阿里云云数据库ClickHouse和CloudTable(Clickhouse)组件配置参数。 创建源端统计任务时,选择源端MRS ClickHouse连接或阿里云云数据库ClickHouse连接。 创建目的端统计任务时,选择目的端MRS
对象列表文件大小不能超过30 MB。 对象列表文件类型必须为.txt类型,并且元数据ContentType只能为text/plain。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件每行只能包含一个对象名称,且对象名称使用URL Encode编码。 对象列表文件行长度不超过16KB,否则迁移失败。
少网络时延,提高访问速度。 推荐策略 匹配源端规格 根据源端规格推荐最合适的华为云对应资源规格。 如果是通过手动添加或内网发现获取的源端主机,则将X实例,通用计算型,计算增强型三种规格类型,根据“偏好设置”选项(价格优先或性能优先)进行排序,依次检索各类型下所有虚拟机规格,选出第
对象存储数据的高效迁移。 约束与限制 关于存储迁移的约束与限制请查看存储迁移的约束与限制有哪些? 源端为阿里云OSS:当源端对象的存储类型是深度冷归档存储时,无法使用MgC提供的解冻归档数据功能直接迁移,需要在源端先手动解冻后再迁移。 风险提示 在创建工作流时,对于源端和目的端的
对象存储数据的高效迁移。 约束与限制 关于存储迁移的约束与限制请查看存储迁移的约束与限制有哪些? 源端为阿里云OSS:当源端对象的存储类型是深度冷归档存储时,无法使用MgC提供的解冻归档数据功能直接迁移,需要在源端先手动解冻后再迁移。 风险提示 在创建工作流时,对于源端和目的端的
ClickHouse连接 ClickHouse、阿里云云数据库ClickHouse和CloudTable(Clickhouse)组件配置参数。 创建源端统计任务时,选择源端MRS ClickHouse连接或阿里云云数据库ClickHouse连接。 创建目的端统计任务时,选择目的端MRS
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移