动版本。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安装最新版本的GPU驱动,请将您的CCE AI套件(NVIDIA GPU)插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型
GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户定义使用的GPU数量,提高GPU利用率。 GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存大
介绍。 关于GPU指标更多信息,请参见GPU监控指标说明。 前提条件 集群中已安装云原生监控插件。 集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。 集群中已有NVIDIA GPU节点。 如果需要监控GPU虚拟化监控指标,集群中需要已安装V
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 GPU虚拟化多卡均分调度 父主题: GPU调度
同的卡型,独立配置GPU/MEM。最小GPU规格小至1 GB显存/算力,将为您提供最贴合业务的实例规格。 突发流量支撑 函数计算平台提供充足的GPU资源供给,当业务遭遇突发流量时,函数计算将以秒级弹性供给海量GPU算力资源,避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损。
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
Gauge % GPU进程 表示GPU算力的使用量,即GPU负载实际使用的GPU卡算力。算力以整卡的1%为单位,例如30%表示GPU负载实际使用GPU卡中30%的算力。 不开启GPU虚拟化:该指标数值与cce_gpu_utilization相同。 开启GPU虚拟化:该指标数值与
设置->常规设置”,单击“启用GPU”,配置GPU参数。 表1 GPU参数说明 参数名称 说明 GPU卡型 当前仅支持NVIDIA-T4。 GPU规格(GB) 支持1~16GB。 图1 启用GPU 相关文档 针对不同使用场景,函数工作流支持通过在线编写代码、上传代码文件或者使用容
本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。 当前已支持使用自动化脚本安装GPU驱动,建议优先使用自动安装方式,脚本获取以及安装指导请参考(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)和(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
方法一:重新启动,选择安装GPU驱动时的内核版本,即可使用GPU驱动。 在云服务器操作列下单击“远程登录 > 立即登录”。 单击远程登录操作面板上方的“发送CtrlAltDel”按钮,重启虚拟机。 然后快速刷新页面,按上下键,阻止系统继续启动,选择安装GPU驱动时的内核版本进入系统
分配到一张卡上。 GPU虚拟化模式: 显存:GPU虚拟化配置项。显存值单位为Mi,需为128的整数倍,最小值为128Mi,若配置的显存超过单张GPU卡的显存,将会出现无法调度状况。 算力:GPU虚拟化配置项。算力值单位为%,需为5的倍数,且最大不超过100。算力可以不填写,不填表示显存隔离算力共享。
是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动。 否,请执行下一步。 请尝试重启云服务器,再执行nvidia-smi查看GPU使用情况,确认是否正常。 如果问题依然存在,请联系客服。 父主题: GPU驱动故障
在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容 参考使用GPU虚拟化章节,创建使用GPU虚拟化
GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控
设置->常规设置”,单击“启用GPU”,配置GPU参数。 表1 GPU参数说明 参数名称 说明 GPU卡型 当前仅支持NVIDIA-T4。 GPU规格(GB) 支持1~16GB。 图1 启用GPU 相关文档 针对不同使用场景,函数工作流支持通过在线编写代码、上传代码文件或者使用容
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
一个虚拟设备。 在设备列表中,选择新创建的虚拟设备, 图2 在线调试-创建虚拟设备 单击右侧的“调试”,进入调试界面。 图3 在线调试-进入调试 进入在线调试页面,查看设备状态显示为”在线”。 图4 在线调试-设备在线备 在“设备模拟器”区域,针对您实际的使用场景,可以选择属性上
您即将访问非华为云网站,请注意账号财产安全