检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。
图5 HPA策略创建成功 父主题: GPU调度
创建GPU函数 GPU函数概述 自定义镜像方式创建GPU函数 定制运行时方式创建GPU函数 父主题: 创建函数
定制运行时函数创建完成后,在函数代码配置页面,选择“设置->常规设置”,单击“启用GPU”,配置GPU参数。 表1 GPU参数说明 参数名称 说明 GPU卡型 当前仅支持NVIDIA-T4。 GPU规格(GB) 支持1~16GB。 图1 启用GPU 父主题: 创建GPU函数
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
图1 为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。
方法2:查询云服务器安装的驱动版本:whereis nvidia 图1 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 父主题: GPU调度
export DUMP_GRAPH_LEVEL=2 # 1:表示dump图所有图。 2:表示dump除子图外的所有图。 3:表示只dump最后一张图。 问题分析。
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
GPU驱动显示正常,查看属性,提示需要重新启动计算机后生效,如下图所示,执行步骤2。 GPU驱动有黄色感叹号,查看属性,显示设备有问题,如下图所示,执行步骤2。 显示适配器中无GPU显卡驱动(GPU驱动未生效),如下图所示,执行步骤2。 重启弹性云服务器。
GPU计算型 GPU计算单元包含的计算资源主要适用于政企用户部署GPU密集型业务到CloudPond上使用的场景,对应华为云ECS的实例包含Pi系列,用户可根据机型规格情况选择对应的计算资源商品。具体规格请参考表1。
GPU推理业务迁移至昇腾的通用指导 简介 昇腾迁移快速入门案例 迁移评估 环境准备 模型适配 精度校验 性能调优 迁移过程使用工具概览 常见问题 推理业务迁移评估表 父主题: GPU业务迁移至昇腾训练推理
图说EVS EVS云小课 图说ECS 立即体验 成长地图 由浅入深,带您玩转EVS 01 了解 了解华为云云硬盘的类型、模式和特性,有助于您更准确地匹配实际业务,更快速地选择所需的云硬盘,使业务高效上云。
WDDM 模式下,GPU同时用于计算和图形。 仅在GPU服务器安装了GRID驱动时才可以切换至WDDM模式。 关于TCC和WDDM,了解更多。 方法二 登录GPU加速型云服务器。 下载gpu-Z并安装。 打开gpu-z,选择“Sensors”即可查看GPU使用情况。
管理GPU加速型ECS的GPU驱动 GPU驱动概述 Tesla驱动及CUDA工具包获取方式 (推荐)自动安装GPU加速型ECS的GPU驱动(Linux) (推荐)自动安装GPU加速型ECS的GPU驱动(Windows) 手动安装GPU加速型ECS的GRID驱动 手动安装GPU加速型
父主题: GPU推理业务迁移至昇腾的通用指导
GPU设备检查 功能 检查节点是否存在gpu设备,gpu驱动是否安装且运行正常。
模型适配 基于MindSpore Lite的模型转换 动态shape 父主题: GPU推理业务迁移至昇腾的通用指导
示例中,为GPU/NPU节点添加accelerator=true:NoSchedule的污点。 图1 添加污点 创建GPU/NPU工作负载时,在高级配置中,手动添加容忍策略,容忍该污点。 图2 容忍策略 普通工作负载创建时,无需添加容忍策略。