应用GPU资源调度方式 IEF支持多应用共享的方式使用GPU显卡。 IEF支持单个应用使用多个GPU显卡。 GPU资源调度基于GPU显存容量,调度采用GPU显存预分配方式而非实时GPU显存资源。
GPU设备检查 功能 检查节点是否存在gpu设备,gpu驱动是否安装且运行正常。
安装并配置GPU驱动 背景信息 对于使用GPU的边缘节点,在纳管边缘节点前,需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至10.0版本对应的驱动。 操作步骤 安装GPU驱动。
安装并配置GPU驱动 背景信息 对于使用GPU的边缘节点,在纳管边缘节点前,需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至10.0版本对应的驱动。 操作步骤 安装GPU驱动。
错误码说明 未检查到当前节点存在GPU设备 可能原因 GPU卡类型不匹配,当前IEF仅支持nvidia的GPU设备 GPU设备节点未检测到 处理措施 非nvidia的GPU卡。 安装IEF软件时,不使能GPU设备,或更换nvidia的GPU卡。 未检测到GPU设备。
边缘节点支持多个显卡,但是多个显卡的GPU型号必须相同。 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,含有GPU硬件的机器作为边缘节点时可以不使用GPU。 父主题: 边缘节点
应用,申请GPU资源失败 成功申请到GPU资源 紧急 获取GPU信息失败 边缘节点配置GPU使能时,查询GPU信息失败 成功查询到GPU信息 紧急 AK/SK无效 EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常 EdgeHub成功分发临时AK/SK 重要 应用重启
应用,申请GPU资源失败 成功申请到GPU资源 紧急 获取GPU信息失败 边缘节点配置GPU使能时,查询GPU信息失败 成功查询到GPU信息 紧急 AK/SK无效 EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常 EdgeHub成功分发临时AK/SK 重要 应用重启
systemctl stop edgecore systemctl stop edgedaemon 更换显卡,重新安装显卡驱动,然后拷贝驱动文件,具体请参见安装并配置GPU驱动文件。 启动边缘agent服务。
如果边缘应用需要使用NPU、GPU资源,请确认注册和纳管的边缘节点是否选择了对应的类型。 在边缘节点通过docker ps命令查看NPU、GPU容器(npu-device-plugin、gpu-device-plugin)是否正常运行。
CPU >= 1核 硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。
如图1所示,填写边缘节点的名称,AI加速卡选择“Nvidia GPU”,不绑定终端设备。 图1 基本配置 如图2所示,为节点配置系统日志和应用日志。您可以自行选择是否开启云端日志(开启后,可在AOM服务中查看日志)。
边缘节点有如下故障场景: 容器引擎故障,包括容器引擎未启动和容器引擎服务异常 节点磁盘空间不足 边缘节点网络连接异常 GPU驱动异常 NPU插件异常 故障的处理方法请参考边缘节点故障如何处理?。 父主题: 边缘节点
如果边缘节点上没有搭载Nvidia GPU显卡,而这里选择了启用“Nvidia GPU”,则纳管边缘节点会失败。 如果边缘节点使用GPU,您需要在纳管前安装并配置GPU驱动,详细方法请参见安装并配置GPU驱动。
CPU >= 1核 硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。
图1 边缘节点与云上服务连接 通常情况下边缘节点可以通过互联网连接IEF,也可以通过专线或VPN进行连接,专线或VPN连接的具体方法请参见通过专线或VPN连接IEF。 配置边缘节点环境 以具备sudo权限的用户登录边缘节点。 GPU驱动配置。
CPU >= 1核 硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。
图1 DIS通道参考配置 父主题: 智慧园区人脸检测
您即将访问非华为云网站,请注意账号财产安全