AI开发平台MODELARTS-GPU A系列裸金属服务器RoCE带宽不足如何解决?:处理方法

时间:2024-09-11 16:21:47

处理方法

  • 查看nv_peer_mem是否已安装。
    dpkg -i | grep peer

    若未安装则需要安装,安装方法参考装机指导。 若已安装则进入下一检测项。

  • 查看该软件是否已经加载至内核。
    lsmod | grep peer

    若没有则需要重新加载至内核,执行如下命令进行加载:

    /etc/init.d/nv_peer_mem start

    如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。

    若找不到相关文件的问题,可以搜索相关文件在哪里,然后复制到指定目录,例如可执行如下命令:
    cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf  /etc/infiniband/
    cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem   /etc/init.d/
support.huaweicloud.com/trouble-modelarts/modelarts_13_0278.html