云数据迁移 CDM-Hudi目的端的作业失败,日志报错Read Timeout怎么解决?:原因分析

时间:2024-12-05 16:57:02

原因分析

  1. 确认 MRS 集群的JdbcServer是多实例模式还是多租模式。
    • 如果是多实例模式,跳转3
    • 否则跳转2
  2. 多租户模式下,确认其他租户的作业是否正常。
    • 如果所有租户的作业执行spark sql都有问题,跳转3
    • 否则,跳转4
  3. 进一步确认:用dlf建个脚本,选择直连连接,执行一条spark sql,看是否报time out的错(甚至可能数据库都list不出来)。如果有以上现象,大概率是MRS集群的jdbc server出了问题。
  4. 单租户执行不了spark sql,则多半是队列资源限制,打开yarn,搜索租户的队列,查看Spark2x-JD BCS erver2x的yarn任务,此时可能会搜索不到yarn任务,或者State为ACCEPTED,这两种情况都是资源不足起不了yarn任务的现象。打开yarn的schedule,查看队列资源,关注以下几个参数:

    Used Resources: 已使用的内存与CPU核数

    Max Resources:队列中最大可供使用的内存与CPU核数

    Used Application Master Resources: 已使用的AM资源

    Max Application Master Resources: 队列中最大可供使用的AM资源

    通过对比基本就能确定是哪个资源不足导致yarn任务执行异常。

support.huaweicloud.com/cdm_faq/cdm_01_1145.html