MapReduce服务 MRS-Yarn模式下动态资源调度:操作步骤

时间:2025-02-12 14:58:43

操作步骤

  1. 需要先配置External shuffle service,具体请参考使用External Shuffle Service提升性能
  2. “spark-defaults.conf”配置文件中必须添加配置项“spark.dynamicAllocation.enabled”,并将该参数的值设置为“true”,表示开启动态资源调度功能。默认情况下关闭此功能。
  3. 下面是一些可选配置,如表1所示。
    表1 动态资源调度参数

    配置项

    说明

    默认值

    spark.dynamicAllocation.minExecutors

    最小Executor个数。

    0

    spark.dynamicAllocation.initialExecutors

    初始Executor个数。

    spark.dynamicAllocation.minExecutors

    spark.dynamicAllocation.maxExecutors

    最大executor个数。

    Integer.MAX_VALUE

    spark.dynamicAllocation.schedulerBacklogTimeout

    调度第一次超时时间。

    1(s)

    spark.dynamicAllocation.sustainedSchedulerBacklogTimeout

    调度第二次及之后超时时间。

    spark.dynamicAllocation.schedulerBacklogTimeout

    spark.dynamicAllocation.executorIdleTimeout

    普通Executor空闲超时时间。

    60(s)

    spark.dynamicAllocation.cachedExecutorIdleTimeout

    含有cached blocks的Executor空闲超时时间。

    Integer.MAX_VALUE

    • 使用动态资源调度功能,必须配置External Shuffle Service。如果没有使用External Shuffle Service,Executor被杀时会丢失shuffle文件。
    • 如果通过spark.executor.instances或者--num-executors指定了Executor的个数,即使配置了动态资源调度功能,动态资源调度功能也不会生效。
    • 当前动态资源分配功能开启后,不能完全避免task被分配到即将要移除的executor,但是一般情况下只会导致该task失败,只有同一个task失败4次(可通过spark.task.maxFailures配置)才会导致job失败,所以正常情况下基本不会因为task被分配到即将要移除的executor导致job失败,并且可以通过调大spark.task.maxFailures来减小问题发生的概率。
support.huaweicloud.com/devg-mrs/mrs_06_0226.html