检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题描述 创建并执行DLI校验任务时,出现大量失败表,查看MgC Agent(原Edge)日志报错信息如下: 问题分析 出现该问题可能是因为请求已达到接口流控上限。 解决方法 请联系技术支持,提高接口流控的阈值。 父主题: 大数据校验
选择内表进行迁移时,迁移后的数据会存储在DLI中。 选择外表进行迁移时,迁移后的数据会存储在您指定的OBS路径下。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
在资源配置明细的主机页签,单击主机资源绑定目的端列的“去绑定”,弹出绑定目的端窗口。 选择源端主机关联的应用所在区域以及区域下的项目,在所选项目下,选择要绑定的目的端主机,单击“确认”。 目的端绑定成功后,该主机资源绑定目的端列的状态会变为“已绑定”,单击“详情”可以查看绑定的目的端规格。
选择内表进行迁移时,迁移后的数据会存储在DLI中。 选择外表进行迁移时,迁移后的数据会存储在您指定的OBS路径下。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
填写MRS/CDH客户端的安装目录路径。即安装客户端时,“./install.sh” 所填写的地址。 SQL文件地址 填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。 须知: 校验完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。 参数配置完成后,单击“测试连接”,系统会校
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
建完成。在任务列表中可以查看任务的数据源采集状态。 数据源采集成功后,可以通过如下方式获取采集结果: 单击任务操作列的“下载json”,将采集结果保存为json文件,用于将采集结果导入MgC进行应用关联分析,详情请参考导入工具采集结果。 单击任务操作列的“下载csv”,将采集结果
son格式文件,且大小不能超过4KB。 ID/密钥适用于添加Azure平台凭证。添加凭证所需的信息获取方法请参见如何获取添加Azure凭证所需的信息。 私有云 用户名/密码 输入源端私有云的登录用户名、密码。 数据库 用户名/密码 输入数据库的登录用户名、密码。 大数据-执行机 用户名/密码
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇
用户自定义 元数据连接 选择步骤12.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
模板参数填写完成并保存后,单击窗口的“添加文件”,将填写后的模板文件上传至迁移中心。 文件大小不能超过100 MB。 单击“确认”,创建血缘采集任务完成。系统自动开始进行血缘采集。 单击“查看任务”,进入血缘采集页面,可以在任务列表中查看采集任务状态。 当任务状态为“已完成”时,单击页面右上角的“查看血缘”,可以查看血缘关系图。
单击采集任务操作列的“查看”,进入任务详情页面,可以查看到该任务包含的采集项。 单击采集项前的按钮,可以查看该采集项包含的采集数据源以及各资源类型的采集结果。 图5 采集结果 如果有采集失败的数据源,可以将鼠标放到数据源的采集状态上,查看失败原因。 在采集结果列,单击资源类型后的数量,可以跳转到对应的资源类型列表页面。
发现方式选择“RVTools导入”,单击“添加文件”,选择导出到本地的RVTools资源文件。 图4 导入RVTools资源 单击“确认”,将文件上传到MgC Agent。 上传成功后,单击页面右上角的“查看任务”,右侧弹出任务列表页面,查看任务状态。当任务状态为已完成,在主机列表中可以查看导入的主机资源。 如
命令来解压对应的归档日志文件,以便查看。例如,归档日志文件名为 archived_log.gz,则可以使用命令 gunzip archived_log.gz 来解压。 查看大数据插件日志 执行如下命令,进入MgC Agent安装目录中的日志目录。该目录包含了大数据插件运行时产生的各种日志文件。
支持迁移的文件类型:普通文件、目录文件、软链接文件、硬链接文件。 注意: 文件句柄被占用或源端文件被删除,均会导致迁移失败。 不支持字符设备文件、块设备文件、套接字、管道文件等特殊文件的迁移。 软链接不支持元数据的迁移。
将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入。在库表清单列表中可以查看导入的数据表。 导出数据表 支持将Delta Lake和Hudi有元数据的数据表导出为CSV格式。无元数据的数据表不支持导出。 在表管理页面,选择库表清单页签。 单击列表上方的“导出 >
Eureka采集器(app-discovery-eureka) 通过Eureka提供的开发API,采集Eureka Server和Eureka Client的相关信息。参数配置说明参见表1。 表1 Eureka采集器参数配置说明 参数 必选 配置说明 output_path 否
创建源端云服务连接 对大数据云服务数据进行一致性校验时,需要分别与源端和目的端云服务建立连接,用于数据查询和计算。 目前支持创建源端连接的大数据云服务包括: MaxCompute 阿里云云数据库ClickHouse 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入
允许删除采集任务。 导入文件的大小超出限制。 请导入10MB以内的文件。 文件名无效。 请按规则输入文件名。 文件格式无效。 请导入正确的文件格式。 新增数据源失败,导入文件不存在。 请检查导入文件是否成功,或尝试再次导入。 采集阿里云RM资源信息失败。 请参考阿里云资源管理产品文档进行API