检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU设备检查 功能 检查节点是否存在gpu设备,gpu驱动是否安装且运行正常。 语法 edgectl check gpu 参数说明 无 使用示例 检查节点GPU设备: edgectl check gpu 检查成功返回结果: +-----------------------+ |
应用GPU资源调度方式 IEF支持多应用共享的方式使用GPU显卡。 IEF支持单个应用使用多个GPU显卡。 GPU资源调度基于GPU显存容量,调度采用GPU显存预分配方式而非实时GPU显存资源。 当应用需要使用的GPU显存资源小于单个GPU卡显存时,支持以共享方式进行资源调度,对
安装并配置GPU驱动 背景信息 对于使用GPU的边缘节点,在纳管边缘节点前,需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至10.0版本对应的驱动。 操作步骤 安装GPU驱动。 下载GPU驱动,推荐驱动链接:
安装并配置GPU驱动 背景信息 对于使用GPU的边缘节点,在纳管边缘节点前,需要安装并配置GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至10.0版本对应的驱动。 操作步骤 安装GPU驱动。 下载GPU驱动,推荐驱动链接:
错误码说明 未检查到当前节点存在GPU设备 可能原因 GPU卡类型不匹配,当前IEF仅支持nvidia的GPU设备 GPU设备节点未检测到 处理措施 非nvidia的GPU卡。 安装IEF软件时,不使能GPU设备,或更换nvidia的GPU卡。 未检测到GPU设备。 尝试重启节点。 父主题:
边缘节点支持多个显卡么? 边缘节点支持多个显卡,但是多个显卡的GPU型号必须相同。 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,含有GPU硬件的机器作为边缘节点时可以不使用GPU。 父主题: 边缘节点
确认边缘节点资源信息是否正确。 如果边缘应用需要使用NPU、GPU资源,请确认注册和纳管的边缘节点是否选择了对应的类型。 在边缘节点通过docker ps命令查看NPU、GPU容器(npu-device-plugin、gpu-device-plugin)是否正常运行。 如果您是首次
edgecore systemctl stop edgedaemon 更换显卡,重新安装显卡驱动,然后拷贝驱动文件,具体请参见安装并配置GPU驱动文件。 启动边缘agent服务。 systemctl start edgecore systemctl start edgedaemon
硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。 目前只有使用
硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。 目前只有使用
边缘节点有哪些故障场景? 边缘节点有如下故障场景: 容器引擎故障,包括容器引擎未启动和容器引擎服务异常 节点磁盘空间不足 边缘节点网络连接异常 GPU驱动异常 NPU插件异常 故障的处理方法请参考边缘节点故障如何处理?。 父主题: 边缘节点
边缘节点被删除后如何恢复,是只需要再纳管一次,还是要重新注册? 边缘节点被删除后如需恢复,必须重新注册并重新纳管边缘节点。不可以将旧的安装工具和配置文件安装在新的边缘节点上,因为在IEF上注册的边缘节点与实际的边缘节点机器是一对一的关系,一个边缘节点的安装工具和配置文件只能安装在一台实际的边缘节点上。
硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。 目前只有使用
> 边缘节点”,单击页面右上角的“注册边缘节点”。 配置边缘节点基本信息。 如图1所示,填写边缘节点的名称,AI加速卡选择“Nvidia GPU”,不绑定终端设备。 图1 基本配置 如图2所示,为节点配置系统日志和应用日志。您可以自行选择是否开启云端日志(开启后,可在AOM服务中查看日志)。
应用配置存活探针,探针检测到异常 容器探针检测成功 重要 申请GPU资源失败 部署GPU应用,申请GPU资源失败 成功申请到GPU资源 紧急 获取GPU信息失败 边缘节点配置GPU使能时,查询GPU信息失败 成功查询到GPU信息 紧急 AK/SK无效 EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常
硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。 目前只有使用
硬盘 >= 1GB GPU(可选) 同一个边缘节点上的GPU型号必须相同。 说明: 当前支持Nvidia Tesla系列P4、P40、T4等型号GPU。 含有GPU硬件的机器,作为边缘节点的时候可以不使用GPU。 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。 目前只有使用
应用配置存活探针,探针检测到异常 容器探针检测成功 重要 申请GPU资源失败 部署GPU应用,申请GPU资源失败 成功申请到GPU资源 紧急 获取GPU信息失败 边缘节点配置GPU使能时,查询GPU信息失败 成功查询到GPU信息 紧急 AK/SK无效 EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常