华为云UCS-gpu-device-plugin:安装插件

时间:2024-11-02 18:53:42

安装插件

  1. 登录U CS 控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”
  2. 在“可安装插件”中找到gpu-device-plugin,单击“安装”
  3. 在安装插件页面,填写插件配置。

    • 插件规格:可配置“默认”“自定义”规格,请根据实际情况选择。
    • 容器:选择“自定义”规格时支持设置。
    • Nvidia驱动:您可使用CCE提供的驱动地址或手动填写自定义Nvidia驱动的地址,集群下全部GPU节点将使用相同的驱动。

      GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。

      建议您使用CCE提供的驱动地址,以满足驱动版本的要求。
      • 如果下载链接为公网地址,例如地址为nvidia官网地址https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run,则各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址
      • 若下载链接为OBS上的链接,无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址
      • 请确保Nvidia驱动版本与GPU节点适配。
      • 更改驱动版本后,需要重启节点才能生效。
      • 对于linux 5.x内核系统,如华为云欧拉操作系统 2.0或ubuntu 22.04,建议使用470及以上版本驱动。
      图1 安装gpu-device-plugin
    • 驱动选择:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。
      • 插件将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。
      • 新建节点更新驱动版本后,需重启节点生效。非新建节点不支持更新驱动版本。
      • 插件卸载会自动删除已安装的GPU驱动。
    • GPU虚拟化:选择开启GPU虚拟化,支持GPU单卡的算力、显存分割与隔离。

      若集群中未安装volcano插件,将不支持开启GPU虚拟化,您可单击“一键安装”进行安装。如需配置volcano插件参数,请单击“自定义安装”,详情请参见volcano

      若集群中已安装volcano插件,但插件版本不支持使用GPU虚拟化,您可单击“一键升级”进行升级。如需配置volcano插件参数,请单击“自定义升级”,详情请参见volcano

  4. 单击“安装”,安装gpu-device-plugin插件的任务即可提交成功。
support.huaweicloud.com/usermanual-ucs/ucs_10_0141.html