搜索_华为云

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤创建诊断任务查看诊断报告父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
查看诊断报告 - AI开发平台ModelArts

confusion_transpose, 梯度裁剪和亲和优化器等多个可替换的API，用户可根据代码堆栈找到需要替换的具体源码，然后根据API instruction跳转后的参考文档修改源代码，从而使能亲和API提升训练性能。注意这里提示的亲和API并非都能提升训练性能，需要用户替换后实测，由于有

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？如果已有launch.json文件，请直接看步骤三。步骤一：打开launch.json文件方法一：单击左侧菜单栏的Run（Ctrl+Shift+D）按钮，再单击create a launch

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
创建诊断任务 - AI开发平台ModelArts

详细介绍请查看查看诊断报告。图9 查看性能诊断报告 Report页面将每隔5s自动刷新一次。父主题：基于advisor的昇腾训练性能自助调优指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
advisor调优总体步骤 - AI开发平台ModelArts

度和最大功率。图5 性能分析报告展示图6 计算维度节点降频问题图7 节点降频及其影响算子父主题：基于advisor的昇腾训练性能自助调优指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

NodeCondtition中。同时，节点故障指标默认会上报到AOM，您可在AOM配置告警通知。当发生节点异常时，在故障初步分析阶段，您可先按表1识别是否为亚健康并自助进行处理，如果不是，则为故障，请联系客户经理发起维修流程（如果无客户经理可提交工单）。表1 节点故障类型定义 NodeCondition

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
训练脚本存放目录说明 - AI开发平台ModelArts

sh脚本一键适配。在用户通过Dockerfile构建模型的环境镜像时会执行该脚本，这会从github上拉取模型的官方源码，并通过git apply qwen-vl.patch的方式进行NPU适配，最后将以上源码和环境打包至镜像中。 AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。安全升级：不影响正在运行的业务，开始升级后会

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Standard资源管理 - AI开发平台ModelArts

源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物理节点运行环境相关的能力，例如GPU/Ascend驱动的自助升级，而公共资源池暂不支持。专属资源池有什么能力？新版专属资源池是一个全面的技术和产品的改进，主要能力提升如下：专属资源池类型归一：

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。以下为使用EVS挂载的开发环境，将数据复制至notebook中的代码示例：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。约束限制 Lite Cluster资源池节点驱动状态处于运行中，且

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Standard专属资源池驱动 - AI开发平台ModelArts

当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。安全升级：不影响正在运行的业务，开始升级后会

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练脚本参数说明 - AI开发平台ModelArts

sh脚本一键适配。在用户通过Dockerfile构建模型的环境镜像时会执行该脚本，这会从github上拉取模型的官方源码，并通过git apply qwen-vl.patch的方式进行NPU适配，最后将以上源码和环境打包至镜像中。 AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
镜像方案说明 - AI开发平台ModelArts

下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。若用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 Notebook中构建新镜像方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
精度调优前准备工作 - AI开发平台ModelArts

在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明昇腾云服务6.3.904版本发布支持的软件包和能力说明如下，软件包获取路径：Support-E网站。发布包软件包特性说明配套说明备注昇腾云模型代码三方大模型，包名：AscendCloud-3rdLLM PyTorch框架下支持如下模型训练：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理业务迁移到昇腾的通用流程，可参考GPU推理业务迁移至昇腾的通用指导。由于Huggingface网站的限制，访问Stable Diffusion链接时需使用代理服务器，否则可能无法访问网站。在Stable Diffusion迁移适配时，更多的时候是在适配Diffusers和Stable

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型Pytorch迁移与精度性能调优 msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark 在模型精度对齐后，针对Stable Diffusion模型性能调优，您可以通过AOE工具进行自助性能调优，进一步可以通过profiling工具对于性能瓶颈进行分析，并针对性的做一些调优操作。您可以直接使用benchmark命令测试m

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
pipeline应用准备 - AI开发平台ModelArts

stable-diffusion-v1-5 pytorch_models 此处由于Huggingface网站的限制以及模型文件的大小原因，很可能会下载失败。您可以登录Huggingface网站，从浏览器下载模型后，再手动上传到物理机/home/pytorch_models目录下。通过git下载sd

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导

总条数： 249

上一页
1
2
3
4
5
...
13
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办？ - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

训练脚本存放目录说明 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

训练脚本参数说明 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线