搜索_华为云

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，排查内存突发增加的时间点附近的训练作业日志，优化对应的代码逻辑，减少内存申请。否，提高训练作业使用的资源规格或者联系技术支持。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
AI开发基本流程介绍 - AI开发平台ModelArts

AI开发基本流程介绍什么是AI开发 AI（人工智能）是通过机器来模拟人类认识能力的一种科技能力。AI最核心的能力就是根据给定的输入做出判断或预测。 AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼，从而总结得到研究对象的内在规律。对数据进行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
ModelArts中常用概念 - AI开发平台ModelArts

务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。 MoXing Framework模块提供了OBS中常见的数据文件操作，如读写、列举、创建文件夹、查询、移动、复制、删除等。在ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
训练作业进程异常退出 - AI开发平台ModelArts

可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Notebook提示磁盘空间已满 - AI开发平台ModelArts

exceeded。原因分析在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
附录：微调训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
训练作业失败，返回错误码139 - AI开发平台ModelArts

pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

docker_ip 是 str 启动多模态openAI服务的主机ip served_port 是 str 启动多模态openAI服务的端口号表2 请求服务json参数说明参数是否必须默认值参数类型描述 model 是无 Str 通过OpenAI服务API接口启动服务时，推理请求必

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

docker_ip 是 str 启动多模态openAI服务的主机ip served_port 是 str 启动多模态openAI服务的端口号表2 请求服务json参数说明参数是否必须默认值参数类型描述 model 是无 Str 通过OpenAI服务API接口启动服务时，推理请求必

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

方法2：可以参考如下方法调整代码中的参数，减少内存占用。如果代码调整后仍然出现内存不足的情况，请使用方法1。调用sklearn方法silhouette_score(addr_1,siteskmeans.labels)，可以指定参数sample_size来减少内存占用。调用train方法的时候可以尝试减少batch_size等参数。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
附录：部署常见问题 - AI开发平台ModelArts

}] } 如何解决“Available shared memory size is not enough“的问题问题：容器共享内存不足解决方法：在启动docker的命令中增加“--shm-size=${memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
增量模型训练 - AI开发平台ModelArts

tputs/train_url_0" train_url = args.train_url # 判断输出路径中是否有模型文件。如果无文件则默认从头训练，如果有模型文件，则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 2902

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线