搜索_华为云

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤创建诊断任务查看诊断报告父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

在训练作业列表中，单击目标训练作业名称，查看该作业的详情。在左侧获取“输出位置”下的路径，即为训练模型的下载路径。模型迁移到其他账号您可以通过如下两种方式将训练的模型迁移到其他账号。将训练好的模型下载至本地后，上传至目标账号对应区域的OBS桶中。通过对模型存储的目标文件夹或者目标

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

ts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
msprobe梯度监控 - AI开发平台ModelArts

msprobe梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
msprobe API预检 - AI开发平台ModelArts

msprobe API预检 msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，主要包括精度预检、溢出检测和精度比对等功能，目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景，可以定位模型训练中的精度问题。精

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

在网络列表中，选择目标网络“操作 > 更多 > 工作空间迁移”。在弹出的“迁移网络”中，选择要迁移的“目标工作空间”，单击“确定”。图2 工作空间迁移子用户仅限于对自己创建的工作空间下的网络进行迁移操作。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
创建诊断任务 - AI开发平台ModelArts

disable_affinity_api False 否关闭亲和算子（融合算子、亲和优化器）API分析。对于首次从gpu迁移至npu的训练任务性能分析，建议保留该参数，替换亲和算子API通常能获得一定性能收益。对于完成迁移后在npu上长训的训练任务，如果出现性能问题，建议设置为True来提升分析速度。 7 output_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
advisor调优总体步骤 - AI开发平台ModelArts

advisor调优总体步骤基于ModelArts performance advisor插件的昇腾PyTorch性能调优主要分为以下步骤：准确采集性能劣化时刻的profiling数据。存储profiling数据。创建advisor分析环境。操作步骤明确性能问题类型，准

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
查看诊断报告 - AI开发平台ModelArts

attention算子耗时最长且降频比率最高，因此降频严重影响了整体的训练性能。对于降频问题，用户通常无法自行解决，需要联系服务方如华为云技术支持排查机器的温度和功耗。图11 降频分析 AICPU Issues 下图展示了高优先级的AICPU问题，AICPU算子单步计算耗时3

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
方案概述 - AI开发平台ModelArts
方案概述 - AI开发平台ModelArts

资源购买使用Lite Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。父主题： DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

自动驾驶实现车辆自主感知环境、规划路径和控制行驶。支持自动驾驶场景PB级数据下模型高效训练，助力自动驾驶特有的感知、规控、仿真生成等全链路相关算法深度优化并快速迭代。内容审核深入业务场景，提供完备成熟的内容审核/CV场景快速昇腾迁移的方案，高效解决业务内容审核的算力/国产化需求，助力企业业务稳健发展。

帮助中心 > AI开发平台ModelArts > 产品介绍
发布解决方案 - AI开发平台ModelArts

发布解决方案如果你已经注册成为了AI Gallery平台上的合作伙伴，AI Gallery支持发布共享你的解决方案。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“解决方案”进入解决方案列表页，单击右上方的“发布”，进入发布解决方案页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
Lite Server资源开通 - AI开发平台ModelArts

址段请根据现网情况合理规划。登录管理控制台。在左侧服务列表中，单击“网络 > 虚拟私有云 VPC”，进入虚拟私有云页面。单击右上角“创建虚拟私有云”后，根据界面提示配置虚拟私有云参数（参数介绍可参考此处），然后单击“立即创建”。图6 新建虚拟私有云步骤6：创建密钥对若

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
线下容器镜像构建及调试 - AI开发平台ModelArts

指定挂载某个宿主机目录到容器环境。 docker run -ti -d -v /mnt/sfs_turbo:/sfs my_deeplearning_image:v1 上述命令表示把宿主机的"/mnt/sfs_turbo"目录挂载到容器的"/sfs"目录，在宿主机和容器对应目录的所有改动都是实时同步的。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
预训练任务 - AI开发平台ModelArts

必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）

总条数： 1347

上一页
1
...
4
5
6
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

msprobe API预检 - AI开发平台ModelArts

迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

方案概述 - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

发布解决方案 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线