检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议使用采集器提供的默认规则文件进行采集,如果需要自定义采集规则,请在默认规则文件基础上进行修改。 path 是 填写应用配置文件(yaml文件)的存储路径。 父主题: 采集器参数配置说明
输入目的端DLI数据库所属的企业项目ID。企业项目ID的获取方法请参考如何获取企业项目ID。 内表转换 选择内表进行迁移时,迁移后的数据会存储在DLI中。 选择外表进行迁移时,迁移后的数据会存储在您指定的OBS路径下。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。
口令短语。 ssl_client_certificate_key_file 否 填写证书与其私钥的串联文件(.pem)路径。如果证书的私钥存储在单独的文件中,则应将其与证书文件串联。 auth_source 否 填写MongoDB认证源。 times 是 设置采集次数,1≤取值范围≤1000。
凭证。 MySQL节点IP:输入MySQL数据库服务器的IP地址。 MySQL服务端口:输入MySQL数据库服务的端口号。 数据库名:输入存储Hive表元数据的数据库名称。 说明: 请确保填写的MySQL凭证、节点IP、服务端口和数据库名与Hive实际使用的MySQL数据库相匹配,否则会导致数据校验失败。
Delta 2.1.0版本并且配置了Spark 2.4.8来处理Delta Lake数据,请添加如下参数: 参数名:mgc.delta.spark.version 参数值:2 如果源端是阿里云 EMR并且配置了Spark 3来处理Delta Lake数据,请添加如下参数: 参数名:jars
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 表7 Delta Lake(无元数据)连接参数配置说明 参数 配置说明 所属源 仅需在源端创建元数据连接。 连接名称 默认创建名称
建议使用采集器提供的默认规则文件进行采集,如果需要自定义采集规则,请在默认规则文件基础上进行修改。 config_path 是 填写配置文件(yaml文件)的存储路径。 注意: 配置文件所在文件夹仅能存放与采集相关的yaml配置文件,可以存放多个配置文件,但不能存放与采集无关的其它yaml文件。 配置文件内容获取方法如下:
WSMan:\localhost\Shell\MaxMemoryPerShellMB 1024 如果原本的配置参数值不小于1024 MB,请继续执行步骤2。 处理老旧系统版本的内存限制问题。 如果源端主机系统版本较旧(如Windows Server 2008或Windows Server 2012)
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 校验完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 参数配置完成后,单击“测试连接”,系统会校验配置信息并与执行机建立连接,测试通过代表与执行机连接成功。 测试连接通过后,单击“确认”按钮,创建执行机连接完成。
1”,可以禁用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。
”窗口。 图1 配置桶 根据表1,配置日志桶。 表1 日志桶参数配置说明 参数 配置说明 桶类型 支持并行文件系统和标准桶两种类型。 对象存储终端节点 填写日志桶所在区域的终端节点(Endpiont),获取方法请参见地区和终端节点。单击“校验”,获取桶列表。 桶名称 在下拉列表中,选择需要作为日志桶的桶名。
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 校验完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 参数配置完成后,单击“测试连接”,系统会校验配置信息并与执行机建立连接,测试通过代表与执行机连接成功。 测试连接通过后,单击“确认”按钮,创建执行机连接完成。
在完成Windows主机迁移后,执行此脚本以恢复源端主机的hosts配置到迁移前的状态。 PowerShell 版本和依赖项要求 PowerShell 远程处理依赖于 Windows 远程管理 (WinRM),由 Windows Management Framework (WMF) 提供。 在 PowerShell
使用该功能前,请联系技术支持人员,将您添加到spark 3.3.1版本的白名单中。 配置DLI作业桶 需要购买一个OBS桶或并行文件系统并设置为DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据。方法请参考配置DLI作业桶。 操作步骤 登录迁移中心控制台。 在左侧导航栏选择“实施>大数据数据迁移”
使用该功能前,请联系技术支持人员,将您添加到spark 3.3.1版本的白名单中。 配置DLI作业桶 需要购买一个OBS桶或并行文件系统并设置为DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据。方法请参考配置DLI作业桶。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择在完成准备工作时创建的大数据迁移项目。
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 采集资源使用信息 可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 测试连接通过后,单击“确认”按钮,创建云服务连接完成。 选择元数据管理,单击创建数据湖元数据同步任务按钮,右侧弹出创建任务-数据湖元数据同步窗口。
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 采集资源使用信息 可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
工作流会失败并出现“重试”和“全量重试”的按钮。以下是导致源端SMS-Agent进程与SMS控制台断开连接的原因,请根据具体原因选择对应的处理方法: 原因一:因网络异常导致源端SMS-Agent进程和SMS控制台断开连接。 该情况通常SMS-Agent进程依旧存在,只需要将网络恢
把客户端执行机Driver日志级别设为ERROR。 上传日志:如果您需要查看作业的执行日志,可以使用上传日志功能,将日志文件上传到您的对象存储(OBS)桶中,以便随时查看和分析。使用上传日志功能前,需要您先在迁移工具Edge上配置日志桶,配置方法请参见配置日志桶。 取消/终止实例