检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建并运行数据湖元数据同步任务 利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。 Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
选择期望的目的端系统盘规格类型。 数据盘规格偏好(可选) 选择期望的目的端数据盘规格类型。 虚拟机规格调整 选择主机性能规格的推荐策略。 选择“不调整”,会推荐与源端主机性能相同或最接近的CPU核数、内存大小。 选择“按性能负载调整”,需要先完成源端主机性能采集,获取源端主机性能负载数据,再通过设置数
txt类型。 列表文件必须是UTF-8无BOM格式编码格式。 列表文件每行只能包含一个文件名称,且文件名称使用URL Encode编码。 列表文件行长度不超过16×1024=16384字节,否则迁移失败。 列表文件行数不超过10000 文件存储服务地址 输入源端文件系统的挂载地址。
阿里云 主机 容器 大数据 数据库 - 中间件 Redis Kafka 存储 对象存储 文件存储 网络 云连接 负载均衡(ALB、CLB) 专线 公网域名 内网域名 弹性公网IP 公网NAT网关 路由表 安全组 虚拟私有云 VPN网关 华为云 主机 容器 大数据 数据库 - 中间件 Redis
客户端,进行sql操作,出现用同一个命令存在返回值不同的情况。 这是因为在进行大数据对数的求和计算时,由于分布式计算顺序的不确定性,可能会导致计算结果的不一致性。特别是处理接近或等于double类型最大值(1.7976931348623157E+308)的数据时,加上一个较小的数值(如2.0)可能会导致数值溢
SQL文件地址 填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 表7 Delta Lake(无元数据)连接参数配置说明 参数 配置说明 所属源 仅需在源端创建元数据连接。
比较文件大小,大小不同则源端覆盖目的端文件;如果最后修改时间和大小都相同,则跳过; 对于文件夹迁移:当文件迁移完成后再比对文件夹大写、时间和权限,如果文件夹大小不同/时间不相同/权限不相同,则源端覆盖目的端文件夹; 说明: 对于空文件夹,覆盖策略与文件相同。 迁移元数据 - 选择是否迁移元数据。
资源采集 资源采集常见问题和处理方法 如何查看采集失败原因? 公网采集失败,提示:“网络连接超时”或“其他异常” 数据源采集失败,如何重新采集? 如何获取云平台凭证(AK/SK)? 如何获取添加Azure凭证所需的信息? 如何获取Azure对象存储深度采集所需凭证? 如何配置采集Azure容器资源所需权限?
阿里云 主机 容器 大数据 数据库 - 中间件 Redis Kafka 存储 对象存储 文件存储 网络 云连接 负载均衡(ALB、CLB) 专线 公网域名 内网域名 弹性公网IP 公网NAT网关 路由表 安全组 虚拟私有云 VPN网关 华为云 主机 容器 大数据 数据库 - 中间件 Redis
器、对象存储和数据库等资源进行深度采集。 创建主机迁移工作流:进行主机迁移,MgC提供高灵活、可定制的迁移工作流,根据采集的源端主机性能数据,推荐最合适的华为云主机规格。 创建大数据迁移任务:进行大数据迁移,支持将阿里云 MaxCompute数据迁移至华为云 数据湖探索(DLI)。
在迁移过程中,源端会和目的端服务器建立一个SSH连接用于传输数据。如果无法成功建立SSH连接,则会导致迁移失败。 解决方法 单击任务详情,进入SMS任务详情页面。 查看具体的报错原因和错误码,并参考以下文档进行处理 SMS.380x SSH连接失败问题汇总 SMS.0303 “域名联通失败”该如何处理? 父主题:
西南-贵阳一 中国-香港 亚太-新加坡 内网迁移 支持在同一Region内通过内网进行迁移。 软连接处理 MgC不支持源端路径为软链接的迁移。如果源端包含软链接,请进行如下处理: 填写实际的文件路径。 迁移完成后,手动在目的端创建相应的软链接。 父主题: SFS1.0迁移至SFS 3.0
DeltaLake(无元数据)迁移至MRS DeltaLake数据校验 本文主要介绍将自建DeltaLake环境上的数据迁移至华为云MRS DeltaLake之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。 DeltaLake不存在元数据,无法通过数据湖元数据同步方式进行数据采集,需要通过导入数据的方式获取元数据信息。
迁移集群包含的关键指标和说明参见下表。 指标 作用 说明 CPU使用率 监控CPU使用状态 迁移小文件时,该指标比较重要,建议CPU使用率接近但不超过90%。 外网络流入、流出速率 观察网络流量流入、流出速率变化情况 迁移大文件时,该指标比较重要,建议速率能达到2 Gbit/s至3 Gbit/s。 以上指标的查看方法如下:
在MgC控制台为本次迁移创建独立的项目,方法请参见项目管理。 创建弹性文件系统 在目的端创建相应的弹性文件系统,用于迁移后的数据存储和管理,方法请参见创建弹性文件系统或创建高性能文件系统。。 步骤一:创建迁移集群 迁移集群是专为存储工作流提供协作的核心组件,通过集群可以创建和管理迁移节点、列举节点,部署和升级
务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移
配置DLI作业桶 需要购买一个OBS桶或并行文件系统并设置为DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据。方法请参考配置DLI作业桶。 操作步骤 登录迁移中心控制台。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
全量数据迁移 将源端数据库中的所有数据迁移到目的端华为云数据湖探索(DLI)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 开始迁移前,需要联系技术支持人员,将您添加到允许jar程序访问DLI元数据功能的白名单中。 操作步骤 登录迁移中心控制台。 在左侧
增量数据迁移 将上一次迁移后,在源端数据库中发生变化(新增、修改或删除)的数据同步至目的端华为云数据湖探索(DLI)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 已最少完成一次全量数据迁移。 开始迁移前,需要联系技术支持人员,将您添加到允许jar程序访问DLI元数据功能的白名单中。
迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 在元数据采集区域,单击“创建任务 > 数据湖元数据同步”按钮,右侧弹出创建任务-数据湖元数据同步窗口。 根据表2,配置数据湖元数据同步任务参数后,单击“确认”按钮,创建数据湖元数据同步任务。 表2 元数据同步任务参数配置说明 参数