云容器引擎 CCE-使用Kubernetes默认GPU调度:前提条件

时间:2024-05-31 08:37:49

前提条件

  • 创建GPU类型节点,具体请参见创建节点
  • 安装gpu-device-plugin(原gpu-beta)插件,安装时注意要选择节点上GPU对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)
  • gpu-device-plugin(原gpu-beta)插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GPU资源需要将/usr/local/nvidia/lib64追加到LD_LIBRARY_PATH环境变量中。

    通常可以通过如下三种方式追加。

    1. 制作镜像的Dockerfile中配置LD_LIBRARY_PATH。(推荐)
      ENV LD_LIBRARY_PATH /usr/local/nvidia/lib64:$LD_LIBRARY_PATH
    2. 镜像的启动命令中配置LD_LIBRARY_PATH。
      /bin/bash -c "export LD_LIBRARY_PATH=/usr/local/nvidia/lib64:$LD_LIBRARY_PATH && ..."
    3. 创建工作负载时定义LD_LIBRARY_PATH环境变量(需确保容器内未配置该变量,不然会被覆盖)。
      ...
                env:
                  - name: LD_LIBRARY_PATH
                    value: /usr/local/nvidia/lib64
      ...
support.huaweicloud.com/usermanual-cce/cce_10_0345.html