检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
comment String 与device绑定关系描述(通过device id查询node时有值) gpu_info Array of GpuInfo objects gpu型号和gpu memory大小 device_num Integer 关联设备数量 enable_npu Boolean
comment String 与device绑定关系描述(通过device id查询node时有值) gpu_info Array of GpuInfo objects gpu型号和gpu memory大小 device_num Integer 关联设备数量 enable_npu Boolean
comment String 与device绑定关系描述(通过device id查询node时有值) gpu_info Array of GpuInfo objects gpu型号和gpu memory大小 device_num Integer 关联设备数量 enable_npu Boolean
0时,升级至最新版本后业务容器无法启动问题 维护中 2.51.1 2021/04/20 【新增】更新GPU节点驱动安装方式,支持用户离线安装GPU驱动 【修复】2.51.0版本发现的D910问题 须知: GPU节点更新至此版本时,请参考拷贝GPU驱动文件进行环境准备。 维护中 2.51.0 2021/02/25 【修复】2
device_ids 是 Array of strings 设备ID列表 表4 gpu_info 名称 参数类型 说明 name String GPU名称 type String GPU类型 capacity Integer GPU memory大小,单位MB 表5 device 名称 参数类型
否 Float 内存大小,单位兆,大于等于0.01,最大1024000。注意:内存的limits值最小为4;请求不需要带单位 gpu 否 Float Gpu显存大小,单位兆,大于等于0.01,最大1024000;请求不需要带单位 npu 否 Integer Npu个数,大于0,最大1000;请求不需要带单位
容器镜像拉取失败 问题描述 SWR的容器镜像无法拉取到边缘节点。 排查思路 容器镜像拉取失败主要原因如图1所示,在此基础上,您可以根据表1逐步排查。 图1 排查思路 表1 排查思路 可能原因 处理措施 镜像地址错误 镜像地址错误 没有镜像拉取权限 没有镜像拉取权限 边缘节点无法解析SWR和OBS域名
ERROR3401 解析域名失败 错误码说明 edgectl解析域名失败。 可能原因 域名不存在 节点未配置DNS服务器 节点无法连接DNS服务器 DNS服务器不工作 处理措施 依次检查: 检查域名是否不存在。 在域名解析服务正常的节点上尝试解析对应域名,看是否能够解析,若不能,
500, "gpu" : 500 }, "requests" : { "cpu" : 0.25, "memory" : 500, "gpu" : 500 }
否 Float 内存大小,单位兆,大于等于0.01,最大1024000。注意:内存的limits值最小为4;请求不需要带单位 gpu 否 Float Gpu显存大小,单位兆,大于等于0.01,最大1024000;请求不需要带单位 npu 否 Integer Npu个数,大于0,最大1000;请求不需要带单位
"gpu" : "500" }, "requests" : { "cpu" : "0.25", "memory" : "500", "gpu" : "500"
"gpu" : "500" }, "requests" : { "cpu" : "0.25", "memory" : "500", "gpu" : "500"
容器具有更繁荣的生态,能帮助您的容器应用无缝切换到其他的运行环境中,具有更好的可移植性,而且容器具有更好的资源隔离性,并支持CPU/GPU调度。 消息路由管理 IEF提供了消息路由功能,您可以配置消息路由,IEF根据配置的消息路由将边缘消息转发至对应消息端点(Endpoint
应用配置存活探针,探针检测到异常 容器探针检测成功 重要 申请GPU资源失败 部署GPU应用,申请GPU资源失败 成功申请到GPU资源 紧急 获取GPU信息失败 边缘节点配置GPU使能时,查询GPU信息失败 成功查询到GPU信息 紧急 AK/SK无效 EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常
"gpu" : "500" }, "requests" : { "cpu" : "0.25", "memory" : "500", "gpu" : "500"
images命令输出 GPU设备信息 收集ls /dev/nvidiactl /dev/nvidia-uvm /dev/nvidia? 2>&1命令输出 GPU内核模块信息 收集lsmod |grep -e nvidia -e nvidia-uvm 2>&1命令输出 GPU自身信息 收集
Docker未运行 ERROR6103 Docker Cgroup Driver参数配置错误 ERROR6201 无GPU设备 ERROR6202 GPU驱动未安装 ERROR6203 GPU驱动未启动 ERROR6301 无NPU设备 数据采集错误 ERROR7001 故障数据收集失败 内部错误
memory Float 内存大小,单位兆,大于等于0.01,最大1024000。注意:内存的limits值最小为4;请求不需要带单位 gpu Float Gpu显存大小,单位兆,大于等于0.01,最大1024000;请求不需要带单位 npu Integer Npu个数,大于0,最大1000;请求不需要带单位
节点管理 边缘节点概述 配置边缘节点环境 注册自建边缘节点 纳管边缘节点 边缘节点组 升级边缘节点 日志、监控和告警 安装并配置GPU驱动 边缘核心软件EdgeCore配置管理 删除边缘节点 父主题: 铂金版操作指南
节点管理 边缘节点概述 配置边缘节点环境 注册边缘节点 纳管边缘节点 升级边缘节点 日志、监控和告警 安装并配置GPU驱动 边缘核心软件EdgeCore配置管理 删除边缘节点 父主题: 专业版操作指南