搜索_华为云

动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

动态shape 在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题，因为CPU算子支持动态shape；而在Ascend场景上，算子需要指定具体的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
如何处理GPU掉卡问题 - 弹性云服务器 ECS

如何处理GPU掉卡问题问题描述执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。如上图所示，执行nvidia-smi命令查询到7张显卡，实际该机型应有8张显卡。判断方式执行以下命令，显卡的数量与实际规格对应的显卡数量一致，且显卡在位状态正常（rev

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
迁移效果校验 - AI开发平台ModelArts

效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里保证输入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
pipeline应用准备 - AI开发平台ModelArts

生成的图片fantasy_landscape.png会保存在当前路径下，该图片也可以作为后期精度校验的一个对比。图2 生成图片父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
安装GPU指标集成插件 - 云监控服务 CES

安装GPU指标集成插件通过在GPU加速型Linux实例上安装GPU监控插件，可以为用户提供系统级、主动式、细颗粒度的GPU监控，包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标，参见GPU指标。本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件：

帮助中心 > 云监控服务 CES > 用户指南 > 云资源监控 > 主机监控 > 云监控插件（Agent）
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

应的镜像信息。上传数据和算法到OBS 已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。 OBS和训练容器间的数据传输原理可以参考基于ModelArts Standard运行GPU训练作业。准备数据单击下载动物数据集至本地，并解压。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

其余场景再考虑使用本指导自行迁移和调优。迁移流程模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型已经在CPU/GPU上运行成功。迁移到昇腾AI处理器的主要流程如下图所示。图1 迁移流程父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

态shape，只能使用静态shape或者几个固定档位的分档shape代替。使用converter_lite转换模型时，也分为静态shape和分档shape两种方式，需要根据具体的业务需求使用对应的转换方式。本次迁移使用的是静态shape方式进行模型转换。获取模型shape 由于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业操作流程准备工作：购买服务资源（VPC、SFS、SWR和ECS）配置权限创建专属资源池（打通VPC）在ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
服务版本差异 - Web应用防火墙 WAF

扩展包和规则扩展包，以满足更多域名、更大流量的防护需求，也可以通过变更WAF云模式版本和规格从较低版本升级到任一更高版本。服务版本从低到高依次为：“入门版”、“标准版”、“专业版”、“铂金版”。表2 适用的业务规格业务规格云模式独享模式（按需计费）入门版标准版专业版

 帮助中心 > Web应用防火墙 WAF > 产品介绍
精度调优总体思路 - AI开发平台ModelArts

述手段定位精度问题，使得单机精度达标，然后再恢复层数拉起多机训练。若单机精度正常但多机精度异常，有可能是多机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
MindSpore Lite问题定位指南 - AI开发平台ModelArts

MindSpore Lite问题定位指南在MindSpore Lite使用中遇到问题时，例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。一般场景的训练模型都是包括随机种

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

适配OS Ubuntu22.04 GPU驱动目录自动挂载优化 1.2.24 v1.19 v1.21 v1.23 v1.25 节点池支持配置GPU驱动版本支持GPU指标采集 1.2.20 v1.19 v1.21 v1.23 v1.25 设置插件别名为gpu 1.2.17 v1.15 v1

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
精度问题诊断 - AI开发平台ModelArts

以上述现象为例，通过修改use_ascend参数值对模型替换，可以发现：当text_encoder模型为onnx模型，其余模型为mindir模型时，能够得到和标杆数据相同的输出，因此可以判断出转换得到的text_encoder模型是产生pipeline精度误差的根因。通过下一小节可以进一步确认模型精度的差异。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
GPU插件检查异常处理 - 云容器引擎 CCE

GPU插件检查异常处理检查项内容检查到本次升级涉及GPU插件，可能影响新建GPU节点时GPU驱动的安装。解决方案由于当前GPU插件的驱动配置由您自行配置，需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件，并配置当前GPU驱动后，测试创建节点是否正常使用。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。字段说明表1 参数描述参数是否必选参数类型描述 basic 是 object 插件基础配置参数。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

如何配置Pod使用GPU节点的加速能力？问题描述我已经购买了GPU节点，但运行速度还是很慢，请问如何配置Pod使用GPU节点的加速能力。解答方案1：建议您将集群中GPU节点的不可调度的污点去掉，以便GPU插件驱动能够正常安装，同时您需要安装高版本的GPU驱动。如果您的集

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
pipeline代码适配 - AI开发平台ModelArts

[output.get_data_to_numpy() for output in outputs] # 后处理... 为了同时兼容onnx模型和mindir模型都能够在适配后的pipeline中运行，需要对于Model进行封装。MsliteModel各参数模型说明已给出，根据模型初始

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移

总条数： 9222

上一页
1
...
5
6
7
...
462
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

动态shape - AI开发平台ModelArts

如何处理GPU掉卡问题 - 弹性云服务器 ECS

迁移效果校验 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

安装GPU指标集成插件 - 云监控服务 CES

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

服务版本差异 - Web应用防火墙 WAF

精度调优总体思路 - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

精度问题诊断 - AI开发平台ModelArts

GPU插件检查异常处理 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

pipeline代码适配 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线