华为云用户手册

  • MgC MigrateAccess策略内容 { "Version": "1.1", "Statement": [ { "Action": [ "mgc:*:query*", "mgc:*:discovery", "mgc:*:assess", "mgc:*:migrate", "iam:agencies:listAgencies", "iam:roles:listRoles", "iam:quotas:listQuotas", "iam:permissions:listRolesForAgency" ], "Effect": "Allow" } ]}
  • 示例流程 图1 给用户授权MgC权限流程 创建用户组并授权 系统策略:在 IAM 控制台创建用户组,并根据MgC系统策略说明以及实际的权限要求,为用户组授权MgC系统策略,授权范围方案选择“所有资源”。 表1 MgC系统策略说明 策略名称 描述 策略类别 策略内容 MgC FullAccess 迁移中心管理员权限,拥有操作MgC的所有权限。 系统策略 MgC FullAccess策略内容 MgC ReadOnlyAccess 迁移中心只读权限,仅能查看MgC资源,无法进行操作。 系统策略 MgC ReadOnlyAccess策略内容 MgC DiscoveryAccess 迁移中心资源发现操作权限,拥有操作资源发现功能的权限和只读权限。 系统策略 MgC DiscoveryAccess策略内容 MgC AssessAccess 迁移中心评估操作权限,拥有操作评估功能、资源发现功能的权限和只读权限。 系统策略 MgC AssessAccess策略内容 MgC MigrateAccess 迁移中心迁移操作权限,拥有操作迁移功能、评估功能、资源发现功能的权限和只读权限。 系统策略 MgC MigrateAccess策略内容 MgC AppDiscoveryAccess 迁移中心资源采集操作权限,拥有操作资源采集功能、资源发现功能的权限和只读权限。 系统策略 MgC AppDiscoveryAccess策略内容 MgC MrrAccess 迁移中心业务验证操作权限,拥有业务验证功能的权限和只读权限。 系统策略 MgC MrrAccess策略内容 自定义策略:如果IAM用户只需要拥有迁移中心 MgC部分操作权限,则使用自定义策略,参见MgC自定义策略。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1.创建用户组并授权中创建的用户组。 当IAM用户首次使用MgC的特定功能时,需要通过以下两种方式授予委托权限: 推荐方式:请管理员登录MgC控制台,进入相关功能界面,同意相关委托权限。 备选方式:请管理员登录“ 统一身份认证 服务 IAM”服务,为当前IAM用户配置创建委托所需的权限,确保其拥有MgC相关系统策略以及"iam:agencies:createAgency"、"iam:permissions:grantRoleToAgency"、"iam:roles:createRole"和"iam:roles:updateRole"的权限。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择迁移中心 MgC,进入MgC主界面,根据您授予的权限可以进行对应操作,表示授予的权限已生效。 在“服务列表”中选择除迁移中心 MgC外的任一服务,若提示权限不足,表示授予的权限已生效。
  • MgC AppDiscoveryAccess策略内容 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mgc:*:query*", "mgc:*:discovery", "mgc:*:appdiscovery" ] } ]}
  • 更改目的端规格 在资源配置明细区域,单击主机资源操作列的“更改目的端规格”,右侧弹出资源详情窗口。 单击主机规格后的“更改规格”,可以修改目的端主机规格和镜像。 单击磁盘对应的目的端规格处的“更改规格”,可以修改目的端磁盘的存储类型和资源总用量(磁盘容量)。Linux主机的磁盘容量可以根据源端主机磁盘的实际使用量,进行缩容,即小于源端磁盘容量。更改磁盘规格后,系统会自动判断是否进行了磁盘缩容,在主机资源配置明细列表中的“磁盘缩容”列,“是”代表已缩容;“否”代表未缩容。 系统盘容量取值范围为:40 G~1024 G 数据盘容量取值范围为:10 G~32768 G 当前仅支持Linux主机磁盘缩容,需确保缩容后容量大于源端实际使用量。 跨可用区迁移场景仅支持扩容,即使配置缩容,系统也会自动创建一个与源端磁盘容量相同的目的端磁盘。
  • 过滤策略说明 过滤策略参数填写通配符规则说明和约束说明参见表6。 表6 过滤策略参数说明 参数 说明 填写规则 约束说明 黑名单 命中黑名单规则,则文件不进行迁移/一致性对比。支持精确匹配和模糊匹配。 精确匹配 全路径精确匹配,填写文件绝对路径,特殊字符用反斜杠(\)转义。 注意: 配置黑、白名单注意事项: 如果文件存储服务地址是以冒号加斜杠(:/)结尾,请确保在黑、白名单中填写的路径是相对于挂载地址的绝对路径。 例如,文件存储服务地址为"192.1.1.1:/",挂载地址为"/mnt/turbo",则填写"/mnt/turbo"下的绝对路径。 挂载信息示例: [root@oms-cluster-ecs filter_test]# pwd/mnt/sts_turbo/mgc/filter_test[root@oms-cluster-ecs- filter_test]# lldrwxr-xr-x 2 root root 0 Aug 16 15:27 test2-rw-r--r-- 1 root root 5 Aug 16 15:27 test2.log 如果要使黑名单精确匹配以避免迁移"test2.log"文件,则应在黑名单中填写路径:/mgc/filter_test/test2.log 如果文件存储服务地址在冒号加斜杠(:/)之后还包含其他路径,配置黑、白名单时,除了填写挂载地址下的绝对路径外,还要加上文件存储服务地址:/之后的部分。 例如,文件存储服务地址为"192.1.1.1:/mgc-test",挂载地址为"/mnt/turbo",则填写"mgc-test+/mnt/turbo"下的绝对路径。 挂载信息示例: [root@oms-cluster-ecs execution-service]# cd /mnt/turbo/autotest/filter_test/[root@oms-cluster-ecs- filter_test]# ll-rw-r--r-- 1 root root 14 Aug 8 09:22 test1.logdrwxr-xr-x 1 root root 4096 Aug 8 09:22 test2-rw-r--r-- 1 root root 14 Aug 8 09:22 test2.log 如果要使黑名单精确匹配以避免迁移"test2"文件,则应在黑名单中填写路径:/mgc-test/autotest/filter_test/test2 模糊匹配 *匹配任何字符0个或者多个,但不匹配斜杠(/) 使用**匹配任何字符0个或者多个,包括斜杠(/) ?匹配除斜杠(/)之外的任何字符,只能匹配一个 {和}定义元素之间的选择:包含一个以逗号分隔的模式列表, 其中任何一种模式都可能匹配,可以包含通配符。 特殊字符可以在它们之前使用 \进行转义,\后面为通配符时,表示转义,否则表示\本身 除{ 和 } 以外,不能出现连续的规则符号,例如:***、*?、**?、?*、?**、*{*、*}*、*}?、?{*、{*}、{,}、{*,、 ,*}、,*,。 { 和 } 之间的模式,只能使用*做通配符。 { 和 } 之间的模式,不能有{}嵌套。 文件绝对路径在黑名单和白名单同时命中,则黑名单生效,即不做迁移。 需要配置多个匹配规则时,用英文分号隔开。 白名单 白名单为空时,迁移所有文件。 白名单不为空时,仅对绝对路径命中白名单规则的文件进行迁移/一致性对比。 时间段 配置时间段,根据配置,迁移最后修改时间在配置时间段内的文件或者文件夹。 开始时间和结束时间可以配置为空,为空时表示不限制,时间可以精确到分钟。 过滤策略场景规则示例以及举例见下表。 例如第一级目录为“test”,那么: NAS的路径格式为:“/test”。 OBS的路径格式为:“test”。 场景 NAS规则示例 OBS规则示例 说明 文件路径以xx结尾(特定后缀) /xx /**xx xx/**xx xx可以是包含*和?的表达式 根路径下第一层xx开始的文件 /xx* /testssss 匹配 /test/xx 不匹配 /xx* testssss 匹配 test/xx 不匹配 文件路径以xx开始 /xx** /xx/** xx** xx/** 文件名包含xx **xx* **xx* 文件路径包含xx **xx** **xx** 文件路径以xx开始,以yy结尾 /xx**yy xx**yy xx,yy可以是包含*和?的表达式 文件路径以xx,yy结尾(特定后缀) **{xx,yy} **{xx,yy} 文件名包含xx,yy **{xx,yy}* **{xx,yy}* 文件路径包含xx,yy **{xx,yy}** **{xx,yy}**
  • 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到 DLI 数据校验的表组时,建议先创建count、sum、allsum等基本校验标准的表组,在确保基本校验任务的校验标准已达标,并且源端和目的端数据量一致后,再创建content校验标准的表组进行详细的内容校验,以确保的目的端数据与源数据在数据量和内容上一致。
  • 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。 采集周期默认为7天,7天后会自动停止采集;采集周期内可以进行停止采集和重启采集操作;重启采集后,采集周期重新计算。 采集到的性能数据将保留180天,超期后会自动删除。 MgC Agent(原Edge)建议安装在独立主机上,避免与业务主机共用,以确保采集的稳定性和效率。 Linux主机:MgC Agent最多同时采集1000台Linux主机。当同时采集1000台Linux主机时,安装MgC Agent的主机规格最低要求为8U16G,且可使用内存不小于8G。 Windows主机:MgC Agent最多同时采集500台Windows主机,当同时采集500台Windows主机时,安装MgC Agent的主机规格最低要求为16U32G,且可使用内存不小于8G。
  • 集群状态说明 集群所包含的状态以及状态说明参见表1。 表1 集群状态说明 状态 说明 创建中 正在创建集群资源 创建失败 创建集群资源失败 连接中 等待master节点上线,并开始创建和安装其他节点 健康 所有节点均处于在线状态 亚健康 部分迁移节点和列举节点在线,并且至少存在一个迁移节点和一个列举节点在线 不可用 所有迁移节点或列举节点不在线 离线 master节点离线,可能是网络中断、E CS 删除等原因,请排查Vpcep Service、ECS等资源情况 升级中 升级集群版本中 升级失败 升级集群版本失败 废弃中 30天内无任务运行,废弃集群中 废弃失败 废弃集群失败 删除中 删除集群中 删除失败 删除集群失败 已废弃 集群已废弃(vpcep删除) 等待创建 等待创建集群资源 安装中 安装master节点中 安装失败 安装master节点失败 等待安装 等待安装master节点 等待升级 等待升级集群版本 等待删除 等待删除集群 父主题: 迁移集群
  • 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到DLI数据校验的表组时,建议先创建count、sum、allsum等基本校验标准的表组,在确保基本校验任务的校验标准已达标,并且源端和目的端数据量一致后,再创建content校验标准的表组进行详细的内容校验,以确保的目的端数据与源数据在数据量和内容上一致。
  • 准备工作 创建迁移项目。 通过资源采集,完成主机资源的发现与采集。MgC提供了三种主机采集方式,您可以根据实际场景和您源端主机所在的云平台,选择适合的采集方式。 源端主机位于云平台:源端为阿里云、华为云、AWS、腾讯云、Azure等云平台主机,推荐使用公网采集,也可以使用各场景通用的手动添加方式。 源端主机位于线下IDC:推荐使用内网采集,通过网段扫描或VMware扫描,采集源端主机资源,也可以使用各场景通用的手动添加方式。 在源端内网环境中安装迁移工具Edge并注册用户,方法和要求请参见安装Windows版本的Edge。安装并注册成功后,将Edge与云端MgC控制台建立连接,方法请参考连接迁移中心。
  • 校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小时内自动进行多次校验,可以持续关注数据一致性变化情况。第二日0点自动停止任务。 指定日期校验:仅适用于分区为年月日格式的分区表,支持周期性指定一个或多个连续日期分区进行校验。分区格式不为年月日的表不会进行校验。 指定时间校验:用户可以选择一个时间段,校验该时间段内的数据。只能选择当前时间之前的时间段进行校验。
  • 各组件支持的校验方式 组件 支持的校验方式 Hive 全量校验 日级增量校验 小时级增量校验 指定日期校验 DLI MaxCompute 全量校验 日级增量校验 小时级增量校验 指定日期校验 抽样分区校验 Doris 全量校验 日级增量校验 小时级增量校验 Hbase 全量校验 指定时间校验 ClickHouse 全量校验 阿里云云数据库ClickHouse 全量校验 CloudTable(HBase) 全量校验 指定时间校验 CloudTable(ClickHouse) 全量校验 Delta 全量校验 日级增量校验 小时级增量校验 指定日期校验 Hudi 全量校验 日级增量校验 小时级增量校验 指定日期校验
  • 自定义参数说明 在创建 数据湖探索 DLI校验任务时,支持的自定义参数及说明参见表1。 表1 DLI校验任务支持的自定义参数说明 参数名称 默认值 描述 mgc.mc2dli.table.partition.enable true DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。 true:查询DLI表的分区,空分区校验状态为成功,分区不存在状态为失败。 false:不查询DLI表的分区,空分区或者分区不存在校验状态都为成功 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark.sql.dynamicPartitionOverwrite.enabled false 当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。 当前配置设置为“true”时,DLI不会提前删除分区,而是在运行时覆盖那些有数据写入的分区。 spark.sql.files.maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true: 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。 该参数设置为false: 不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max(),min(),否则提示异常。 父主题: 大数据校验
  • 列举节点和迁移节点安全组配置 方向 优先级 策略 类型 协议端口 目的地址/源地址 描述 入方向 1 允许 IPv6 全部 Master节点安全组 允许列举和迁移节点与Master通信 入方向 1 允许 IPv4 全部 Master节点安全组 允许列举和迁移节点与Master通信 入方向 1 允许 IPv4 全部 列举和迁移节点安全组 允许安全组内的虚拟机通信 入方向 1 允许 IPv6 全部 列举和迁移节点安全组 允许安全组内的虚拟机通信 出方向 1 允许 IPv4 全部 0.0.0.0/0 放通出方向流量,实现和源端通信 出方向 1 允许 IPv6 全部 ::/128 放通出方向流量,实现和源端通信 出方向 1 允许 IPv6 全部 Master节点安全组 允许列举和迁移节点与Master通信 出方向 1 允许 IPv4 全部 Master节点安全组 允许列举和迁移节点与Master通信
  • VPCEP-Service配置 配置项 详细配置 描述 虚拟私有云 在创建集群时的网络配置中选择。 - 服务类型 接口 - 连接审批 是 确保终端节点审核后方可使用。 端口映射 22、9002 用于集群安装和任务下发、管理。 后端资源类型 云服务器 连接Master节点所在的ECS虚拟机。 连接管理 OMS 云服务的VPCEP端点 允许OMS云服务与迁移集群的Master节点通信。 权限管理 OMS云服务白名单 允许OMS云服务的VPCEP端点进行连接。
  • Master节点安全组配置 方向 优先级 策略 类型 协议端口 目的地址/源地址 描述 入方向 1 允许 IPv4 全部 Master节点安全组 允许安全组内的虚拟机通信 入方向 1 允许 IPv6 全部 Master节点安全组 允许安全组内的虚拟机通信 入方向 1 允许 IPv4 TCP : 22 198.19.128.0/17 云服OMS云服务和Master节点通信,实现集群安装。 入方向 1 允许 IPv4 TCP : 9002 198.19.128.0/17 云服OMS云服务和Master节点通信,实现任务下发、管理 入方向 1 允许 IPv6 全部 列举和迁移节点安全组 允许列举和迁移节点与Master通信 入方向 1 允许 IPv4 全部 列举和迁移节点安全组 允许列举和迁移节点与Master通信 出方向 1 允许 IPv6 全部 ::/128 放通出方向流量,实现和源端通信 出方向 1 允许 IPv4 全部 0.0.0.0/0 放通出方向流量,实现和源端通信 出方向 1 允许 IPv6 全部 列举和迁移节点安全组 允许列举和迁移节点与Master通信 出方向 1 允许 IPv4 全部 列举和迁移节点安全组 允许列举和迁移节点与Master通信
  • 迁移集群包含的资源类型和介绍 资源类型 创建时可配置 是否必须 规格数量 名称 描述 ECS 是 是 Master节点:1台 迁移节点:根据创建集群时的参数配置创建 列举节点:根据创建集群时的参数配置创建 “oms_cluster_ecs_” + 节点id 承载迁移插件,实现对迁移任务的管理、调度以及数据的迁移。 NAT 是 否 1个 “oms_cluster_nat_” + 集群id 公网模式下,实现列举节点、迁移节点和源端通信,实现数据的列举和迁移。 LTS 是 否 1个 主机组名称:“oms_lts_host_group_” + 集群id 保存和搜索迁移集群中的日志。 创建集群时未勾选“启用LTS服务”,则不会创建。 主机组标识:“oms_lts_host_group_label_” + 集群id 日志组名称:“oms_lts_log_group_” + 集群id 日志流名称:“oms_lts_stream_group_” + 集群id 日志接入名称:“oms_lts_access_config_” + 集群id VPCEP-Service 否 是 1个 regionName + “oms-cluster” + serviceId 允许OMS云服务与迁移集群的Master节点通信,实现迁移任务的管理。 配置详情请查看VPCEP-Service配置。 安全组 否 是 2个 “oms_cluster_sg_master_” + 集群id 迁移集群Master节点的安全组,实现与OMS云服务以及迁移集群内部通信。 安全组配置详情请查看Master节点安全组配置。 “oms_cluster_sg_agent_” + 集群id 迁移集群列举节点和迁移节点的安全组,用于迁移集群内部通信。 安全组配置详情请查看列举节点和迁移节点安全组配置。
  • 查看任务状态和详情 在资源采集页面,单击任务总数后的“查看”,进入任务列表页面。 图4 查看任务列表 单击采集任务操作列的“查看”,进入任务详情页面,可以查看到该任务包含的采集项。 单击采集项前的按钮,可以查看该采集项包含的采集数据源以及各资源类型的采集结果。 图5 采集结果 如果有采集失败的数据源,可以将鼠标放到数据源的采集状态上,查看失败原因。 在采集结果列,单击资源类型后的数量,可以跳转到对应的资源类型列表页面。
  • 对象存储深度采集 通过深度采集获取对象存储资源的详细信息,以提高迁移集群规格评估的准确性。请按照以下步骤进行对象存储资源深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击存储资源的资源数量,进入资源列表页面的存储页签。 在对象存储资源列表中,单击深度采集配置列的“配置”,弹出配置窗口。 选择源端安装的Edge工具和相应的资源凭证,单击“确认”完成配置。如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 在对Azure云平台对象存储资源进行深度采集时,需要使用“存储账户”和“密钥”作为采集凭证,凭证的获取方法请参见如何获取Azure对象存储深度采集所需凭证。 配置完成后,单击操作列的“添加前缀”,弹出添加前缀窗口。 输入指定的资源目录路径进行采集,不输入则默认采集全桶资源,单击“确定”保存前缀设置。 完成深度采集配置和添加前缀后,单击操作列的“深度采集”,系统开始进行对象存储资源的深度采集。支持进行多次深度采集。当采集状态为采集完成后,单击资源名称,可以查看采集到的信息。
  • 主机深度采集 请按照以下步骤对主机资源进行深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击主机资源的资源数量,进入资源列表页面的主机页签。 在需要进行深度采集的主机采集设备列,单击“配置”,弹出配置窗口。根据表4,配置参数。 表4 深度采集参数配置说明 参数 配置说明 类型 根据实际的主机操作系统类型选择。 采集设备 选择在源端环境安装的Edge工具。 接入IP 选择主机接入IP,可以为公网IP,也可以是私有IP;迁移预检查通过后,该IP会作为后续 主机迁移 工作流的资源接入IP。 端口 主机开放端口。 Windows主机默认为5985端口,无法修改。 Linux主机默认22端口,可根据实际情况修改。 凭证 选择主机凭证,如未提前在Edge上添加源端主机凭证,请前往Edge控制台添加,并同步至迁移中心。 须知: 为确保采集过程具备充分的系统访问权限,从而能够获取到必要的信息和数据。对主机深度采集的凭证要求如下: 对Linux主机进行深度采集时,请添加Root账号和密码作为采集凭证。 对Windows主机进行深度采集时,请添加Administrator账号和密码作为采集凭证。 单击“确认”,采集设备和凭证都绑定成功后,系统会自动开始深度采集。当深度采集列的状态为“已采集”时,代表采集完成。可以进行下一阶段迁移方案设计或迁移方案配置。
  • 容器深度采集 请按照以下步骤对容器资源进行深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击容器资源的资源数量,进入资源列表页面的容器页签。 在需要进行深度采集的容器采集设备列,单击“绑定”,弹出绑定采集设备窗口。 如果需要批量绑定,可以同时勾选多个资源,单击列表上方的“绑定采集设备”,弹出绑定采集设备窗口。 选择源端安装的Edge工具,单击“确定”。绑定成功后,资源的采集设备列状态会变为已绑定。 采集设备绑定成功后,还需要为资源绑定凭证,单击资源凭证列的“绑定”,弹出绑定凭证窗口。 选择资源凭证,如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 单击“确定”,系统会自动检查凭证绑定状态。当深度采集列状态为就绪时,单击深度采集列的“采集”进行深度采集。首次深度采集完成后,可以单击采集状态列的“重新采集”按钮,进行多次深度采集。采集完成后,单击资源名称可以查看采集到的容器详情。
  • 数据库深度采集 当前支持对AWS RDS(包括MySQL、MariaDB、Aurora、Postgre SQL、SQL Server、Oracle)和AWS DocumentDB数据库进行深度采集,以获取包括数据库版本、引擎、服务器字符集、平均事务每秒(Transaction Per Second, TPS)和查询每秒(Query Per Second, QPS)等关键性能指标在内的详细信息。不同的数据库类型,采集的信息详情可能有所差异。 在源端内网环境中或在可以访问到源端数据库的网络环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击数据库资源的资源数量,进入资源列表页面的数据库页签。 在数据库资源列表中,通过平台类型过滤出采集到的所有AWS数据库资源,在支持深度采集的数据库类型的采集设备列,单击“绑定”,弹出绑定采集设备窗口。 如果需要批量绑定,可以同时勾选多个资源,单击页面右上角的“绑定采集设备”,弹出绑定采集设备窗口。 选择源端安装的Edge工具,以及网络接入方式(如果采集的资源与安装Edge的主机处于同一VPC内,可以选择私网接入,否则需要选择公网接入),单击“确定”。绑定成功后,资源的采集设备列状态会变为已绑定。 采集设备绑定成功后,还需要为资源绑定凭证,单击资源凭证列的“绑定”,弹出绑定凭证窗口。 选择数据库资源凭证,如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 单击“确定”,系统会自动检查凭证绑定状态。当深度采集列的状态为就绪时,单击“采集”开始深度采集。首次深度采集完成/采集失败后,可以单击深度采集列的“重新采集”,进行多次深度采集。 深度采集完成后,单击数据库名称,进入数据库详情页面,在数据库详情区域,可以查看采集到的详细信息。
  • 更改目的端规格 在资源配置明细区域,单击主机资源操作列的“更改目的端规格”,右侧弹出资源详情窗口。 单击主机规格后的“更改规格”,可以修改目的端主机规格和镜像。 单击磁盘对应的目的端规格处的“更改规格”,可以修改目的端磁盘的存储类型和资源总用量(磁盘容量)。Linux主机的磁盘容量可以根据源端主机磁盘的实际使用量,进行缩容,即小于源端磁盘容量。更改磁盘规格后,系统会自动判断是否进行了磁盘缩容,在主机资源配置明细列表中的“磁盘缩容”列,“是”代表已缩容;“否”代表未缩容。 系统盘容量取值范围为:40 G~1024 G 数据盘容量取值范围为:10 G~32768 G 当前仅支持Linux主机磁盘缩容,需确保缩容后容量大于源端实际使用量。 跨可用区迁移场景仅支持扩容,即使配置缩容,系统也会自动创建一个与源端磁盘容量相同的目的端磁盘。
  • 自定义参数说明 在创建 数据湖 探索 DLI校验任务时,支持的自定义参数及说明参见表1。 表1 DLI校验任务支持的自定义参数说明 参数名称 默认值 描述 mgc.mc2dli.table.partition.enable true DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。 true:查询DLI表的分区,空分区校验状态为成功,分区不存在状态为失败。 false:不查询DLI表的分区,空分区或者分区不存在校验状态都为成功 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark.sql.dynamicPartitionOverwrite.enabled false 当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。 当前配置设置为“true”时,DLI不会提前删除分区,而是在运行时覆盖那些有数据写入的分区。 spark.sql.files.maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true: 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。 该参数设置为false: 不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max(),min(),否则提示异常。 父主题: 大数据校验
  • 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。 采集周期默认为7天,7天后会自动停止采集;采集周期内可以进行停止采集和重启采集操作;重启采集后,采集周期重新计算。 采集到的性能数据将保留180天,超期后会自动删除。 迁移工具Edge建议安装在独立主机上,避免与业务主机共用,以确保采集的稳定性和效率。 Linux主机:迁移工具Edge最多同时采集1000台Linux主机。当同时采集1000台Linux主机时,安装Edge的主机规格最低要求为8U16G,且可使用内存不小于8G。 Windows主机:迁移工具Edge最多同时采集500台Windows主机,当同时采集500台Windows主机时,安装Edge的主机规格最低要求为16U32G,且可使用内存不小于8G。
  • 自定义参数说明 在目的端配置中,支持配置的自定义参数及说明请参见表1和conf参数说明。 表1 支持的自定义参数说明 参数名称 取值范围 说明 是否必填 spark.dli.metaAccess.enable - 填写true。 是 spark.dli.job.agency.name 填写DLI委托权限名称。 mgc.mc2dli.data.migration.dli.file.path 填写存放migration-dli-spark-1.0.0.jar包的OBS路径。例如:obs://mgc-test/data/migration-dli-spark-1.0.0.jar mgc.mc2dli.data.migration.dli.spark.jars 填写存放fastjson-1.2.54.jar和datasource.jar包的OBS路径,以数组形式传入,路径带双引号,以英文逗号隔开。例如:["obs://mgc-test/data/datasource.jar","obs://mgc-test/data/fastjson-1.2.54.jar"] spark.sql.catalog.mc_catalog.tableWriteProvider 填写tunnel 专线迁移场景为必填 spark.sql.catalog.mc_catalog.tableReadProvider 填写tunnel spark.hadoop.odps.end.point 填写源端MaxCompute服务所在地域的VPC网络Endpoint信息。各地域VPC网络Endpoint信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://service.cn-hongkong.maxcompute.aliyun-inc.com/api” spark.hadoop.odps.tunnel.end.point 填写源端MaxCompute服务所在地域的VPC网络Tunnel Endpoin信息。各地域VPC网络Tunnel Endpoin信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com” spark.hadoop.odps.tunnel.quota.name - 填写访问MaxCompute使用的Quota名称。 否 sc_type A、B、C 计算资源类型,目前指定参数A, B, C。如果不指定,则按最小类型创建。 A:(8核32G内存,driverCores:2,executorCores:1,driverMemory:7G,executorMemory:4G,numExecutor:6) B:(16核64G内存,driverCores:2,executorCores:2,driverMemory:7G,executorMemory:8G,numExecutor:7) C:(32核128G内存,driverCores:4,executorCores:2,driverMemory:15G,executorMemory:8G,numExecutor:14) 否 executorCores 1- 4 Spark应用每个Executor的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 numExecutors 1-100 Spark应用Executor的个数。该配置项会替换“sc_type”中对应的默认参数。 executorMemory 1-16 G Spark应用的Executor内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 driverCores 1-4 Spark应用Driver的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 driverMemory 1-16 G Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
  • 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。 采集周期默认为7天,7天后会自动停止采集;采集周期内可以进行停止采集和重启采集操作;重启采集后,采集周期重新计算。 采集到的性能数据将保留180天,超期后会自动删除。 MgC Agent(原Edge)建议安装在独立主机上,避免与业务主机共用,以确保采集的稳定性和效率。 Linux主机:MgC Agent最多同时采集1000台Linux主机。当同时采集1000台Linux主机时,安装MgC Agent的主机规格最低要求为8U16G,且可使用内存不小于8G。 Windows主机:MgC Agent最多同时采集500台Windows主机,当同时采集500台Windows主机时,安装MgC Agent的主机规格最低要求为16U32G,且可使用内存不小于8G。
  • 注意事项 创建的源端统计任务和目的端统计任务的统计方式必须保持一致。 HBase安全集群任务与非安全集群任务不能同时执行。HBase安全集群需要加载认证信息,非安全集群连接时需要清除安全集群的认证信息,因此不能同时执行。 校验任务不支持跨天执行,执行过程中如果跨0点将导致校验结果异常,请合理规划任务以避免跨天运行。 当源端Lindorm服务因欠费被锁定时,虽然可以正常创建数据连接和校验任务,但由于服务锁定限制了数据访问和操作权限,最终会导致校验任务无法正常执行。在进行数据校验前,请确保Lindorm服务未因欠费被锁定,以避免权限问题。如果服务被锁定,请及时补缴费用以解除锁定。确认服务恢复正常后,重新尝试执行数据校验任务。
  • 约束与限制 创建EMR Delta Lake到 MRS Delta Lake数据校验任务存在以下约束与限制: 源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Hbase校验不支持纯冷数据表。 在进行Hive 2.x与Hive 3.x版本间数据校验时,由于Hive 2.x版本在查询固定长度字符串类型char(N)数据时,如果实际数据长度不满足N长度,Hive会以空格补齐至N长度。而Hive 3.x版本在查询时不会进行这种补齐操作。这可能导致在不同版本间比较结果时出现差异。为了避免因版本差异导致的数据不一致问题,建议使用Beeline作为客户端工具进行作业对数。 在进行ClickHouse数据校验时,如果源端阿里云的ClickHouse版本为21.8.15.7,目的端华为云的ClickHouse版本为23.3.2.37,由于这两个版本在处理IPv4和IPv6字段类型以及相关函数计算结果上存在差异,因此无法进行字段校验。 在执行Hive数据的日级别增量、小时级增量以及指定日期的校验时,如果分区字段为date类型,且分区值的格式不是标准的YYYY-MM-DD时,系统目前不支持对这种场景进行数据校验。
  • 配置主机购买模板 场景 委托对象 自定义策略名称 细粒度最小使用权限 配置主机购买模板 MgC MgC PurchaseTemplateAgencyPolicy iam:projects:listProjects(查询租户项目) eps:enterpriseProjects:list(查看企业项目列表) vpc:subnets:get(查询子网列表或详情) vpc:securityGroups:get(查询安全组列表或详情) vpc:vpcs:get(查询虚拟私有云详情)
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全