搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
使用ChatGLM3-6B或GLM-4-9B模型微调后，权重校验失败 - AI开发平台ModelArts

ChatGLM3-6B或GLM-4-9B调优转换后的模型无法使用权重校验。处理方法 ChatGLM3-6B或GLM-4-9B模型调优后，不建议进行权重校验。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

Calling扩展大语言模型对外部环境的理解本示例将展示如何定义一个获取送货日期的函数，并通过LLM来调用外部API来获取外部信息。操作步骤设置Maas的api key和模型服务地址。 import requests from openai import OpenAI client

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
MindSpore Lite问题定位指南 - AI开发平台ModelArts

理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析。多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题，您可以通过设置环境变量调整日志等级，打印更多调试日志。关于如何对MindSpore

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

处理方法使用Qwen2.5-72B-1K或Qwen2.5-32B模型的Checkpoint创建模型时，建议关闭权重校验。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
基于MaaS DeepSeek API和Chatbox快速构建文案编辑器 - AI开发平台ModelArts

在“我的搭档”页面，按需选择场景化模板。图6 选择场景化模板在新的对话窗口，单击左下方的配置图标，在“对话设置”对话框，选择已配置的ModelArts Studio提供方，单击“保存”。图7 对话设置使用MaaS的模型进行多轮对话、文案生成、摘要提取等操作。图8 文案生成示例父主题： DeepSeek系列模型推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理
VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

86版本软件导致的，需要用户使用较低版本的VS Code 。解决方案使用VS Code 1.85版本软件。下载链接：https://code.visualstudio.com/updates/v1_85。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
终止训练作业 - AI开发平台ModelArts

String 内存。表48 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表49 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

下载工具源码使用。集群分析工具 MindStudio-Insight 性能可视化工具，采集好的profiling数据可通过该工具进行可视化展示，辅助人工进行profiling数据查看和分析。 windows版本工具，下载链接见教程内。 MindStudio-Insight用户指南 PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
查询训练作业列表 - AI开发平台ModelArts

token。表63 MindStudioInsight 参数参数类型描述 url String 训练作业的MindStudio Insight地址。 token String 训练作业的MindStudio Insight token。请求示例查询训练作业。设置查询训练作业限制个数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

方法2：可以参考如下方法调整代码中的参数，减少内存占用。如果代码调整后仍然出现内存不足的情况，请使用方法1。调用sklearn方法silhouette_score(addr_1,siteskmeans.labels)，可以指定参数sample_size来减少内存占用。调用train方法的时候

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
训练作业失败，返回错误码139 - AI开发平台ModelArts

pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询训练作业详情 - AI开发平台ModelArts

String 内存。表47 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表48 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
msprobe精度分析工具使用指导 - AI开发平台ModelArts

seed(seed) 设置random随机生成器的种子。 np.random.seed(seed) 设置numpy中随机生成器的种子。 torch.manual_seed(seed) 设置当前CPU的随机种子。 torch.cuda.manual_seed(seed) 设置当前GPU的随机种子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关

总条数： 1165

上一页
1
2
3
4
5
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

使用ChatGLM3-6B或GLM-4-9B模型微调后，权重校验失败 - AI开发平台ModelArts

通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

基于MaaS DeepSeek API和Chatbox快速构建文案编辑器 - AI开发平台ModelArts

VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线