检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU推理业务迁移至昇腾的通用指导 简介 昇腾迁移快速入门案例 迁移评估 环境准备 模型适配 精度校验 性能调优 迁移过程使用工具概览 常见问题 推理业务迁移评估表 父主题: GPU业务迁移至昇腾训练推理
父主题: GPU负载
GPU实例启动异常,查看系统日志发现NVIDIA驱动空指针访问怎么办? 问题描述 GPU实例启动异常,检查系统日志,发现NVIDIA驱动空指针访问。如图1所示。 图1 NVIDIA驱动空指针访问 可能原因 GPU驱动异常。 处理方法 卸载驱动。
GPU训练业务迁移至昇腾的通用指导 训练业务迁移到昇腾设备场景介绍 训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优 训练网络迁移总结 父主题: GPU业务迁移至昇腾训练推理
父主题: GPU推理业务迁移至昇腾的通用指导
应用迁移 模型适配 pipeline代码适配 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU驱动故障 G系列弹性云服务器GPU驱动故障 GPU驱动异常怎么办? GPU驱动不可用 GPU设备显示异常 T4 GPU设备显示异常 GPU实例启动异常,查看系统日志发现NVIDIA驱动空指针访问怎么办?
模型适配 基于MindSpore Lite的模型转换 动态shape 父主题: GPU推理业务迁移至昇腾的通用指导
- 尺寸要求 超分前产生的图片尺寸要求: 512*512 720*720 1080 *1080 1920*1920 (shape过大可能导致性能下降) - 父主题: GPU推理业务迁移至昇腾的通用指导
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。
图1 benchmark对接结果输出示例图 为了简化用户使用,ModelArts提供了Tailor工具便于用户进行Benchmark精度测试,具体使用方式参考Tailor指导文档。 父主题: GPU推理业务迁移至昇腾的通用指导
父主题: GPU训练业务迁移至昇腾的通用指导
应用GPU资源调度方式 IEF支持多应用共享的方式使用GPU显卡。 IEF支持单个应用使用多个GPU显卡。 GPU资源调度基于GPU显存容量,调度采用GPU显存预分配方式而非实时GPU显存资源。
模型精度调优 场景介绍 精度问题诊断 精度问题处理 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
适用于执行推理时,每次处理图片宽和高不固定的场景,该参数需要与input_shape配合使用,input_shape中-1的位置为动态分辨率所在的维度。使用方法可参考Ascend配置文件说明。 父主题: 模型适配
性能调优 单模型性能测试工具Mindspore lite benchmark 单模型性能调优AOE 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
迁移的整体流程如下图所示: 图1 迁移流程图 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
--device=Ascend --numThreads=1 --parallelNum=1 --workersNum=1 --warmUpLoopCount=100 --loopCount=100 图1 调优前模型 图2 调优后模型 AOE优化成功的mindir已经融合了优化的知识库
PyTorch迁移精度调优 精度问题概述 精度调优总体思路 精度调优前准备工作 msprobe精度分析工具使用指导 父主题: GPU训练业务迁移至昇腾的通用指导
图3 Stable Diffusion模型迁移到Ascend上进行推理 父主题: GPU推理业务迁移至昇腾的通用指导