检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker ps –a
Toolkit和驱动的版本兼容性列表。您可以根据应用所使用的CUDA Toolkit版本,选择合适的NVIDIA驱动版本。 在选择Nvidia驱动时,建议您在满足下表中CUDA版本和驱动版本配套关系的前提下,优先选择CCE推荐的GPU驱动版本列表中提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA
CCE推荐的GPU驱动版本列表 对于CCE集群,各系统推荐使用驱动版本如下表,若使用非CCE推荐驱动版本,需要您自行验证机型、系统及驱动版本间的配套兼容性。您可以根据您的应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。
Ubuntu内核与GPU驱动兼容性提醒 检查项内容 检查到集群中同时使用GPU插件和Ubuntu节点,提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创
#再次确认是否有程序正在使用GPU卡设备 节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /o
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
07版本。 如果节点驱动版本为450系列,请升级驱动至450.102.04版本。 如果节点驱动版本为460系列,请升级驱动至460.32.03版本。 如果您升级CCE集群节点的GPU驱动,可以升级gpu-beta插件或重装插件,并在安装插件时填写修复后的NVIDIA GPU驱动的下载地址即可。
Linux Kernel openvswitch 模块权限提升漏洞预警(CVE-2022-2639) 漏洞详情 业界披露了Linux Kernel openvswitch模块权限提升漏洞(CVE-2022-2639)的漏洞细节。由于 openvswitch模块中reserve_s
Linux CUPS服务RCE 漏洞公告(CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177) 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 REC CVE-2024-47076 CVE-2024-47175
约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。 安装或重装插件时,需要保证驱动下载链接正确且可正常访问,插件对链接有效性不做额外校验。 插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。
CVE-2021-4034 高 2022-01-28 漏洞影响 影响版本:所有目前主流的Linux版本 安全版本:查看各Linux厂商安全公告 漏洞处理方案 目前RedHat、Ubuntu、Debian、SUSE等各大Linux厂商均已发布补丁版本修复了该漏洞,请受影响的用户升级到安全版本,若无法
Linux内核权限提升漏洞公告(CVE-2024-1086) 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 本地提权 CVE-2024-1086 严重 2024-01-31 漏洞影响 Linux系统内核在3.15-6.8中的netfilter: nf
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GP
PU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE
Linux内核整数溢出漏洞(CVE-2022-0185) 漏洞详情 国外安全研究人员William Liu和Jamie Hill-Daniel发现Linux内核中包含一个整数溢出漏洞,可导致写操作越界。本地攻击者可以使用这一点导致拒绝服务(系统崩溃)或执行任意代码,在容器场景下拥
修复Linux内核SACK漏洞公告 漏洞详情 2019年6月18日,Redhat发布安全公告,Linux内核处理器TCP SACK模块存在3个安全漏洞(CVE-2019-11477、CVE-2019-11478、CVE-2019-11479),这些漏洞与最大分段大小(MSS)和T
linux内核导致的容器逃逸漏洞公告(CVE-2022-0492) 漏洞详情 在某些场景下linux内核cgroup v1的release_agent特性存在可以被利用在容器内逃逸到OS上的安全问题,该问题已被收录为CVE-2022-0492。 表1 漏洞信息 漏洞类型 CVE-ID
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写Nvidia驱动的下载链接,请根据GPU节点的显卡型号选择驱动。 其余参数可保持默认,详情请参见gpu-beta(gpu-device-plugin)。 单击“安装”,安装插件的任务即可提交成功。