搜索_华为云

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

图1 Edit Credential 如果菜单栏中找不到“ModelArts > Edit Credential”，可能是PyCharm版本过高，PyCharm toolkit未适配2023.2之后版本的PyCharm工具。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
advisor调优总体步骤 - AI开发平台ModelArts

推荐升级torch_npu后使用dynamic_profile方式进行采集，如果升级成本过高，也可以使用torch_npu.profiler.profile。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：微调训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后，Conda环境不会丢失。步骤如下: 创建新的虚拟环境并保存到SFS目录克隆原有的虚拟环境到SFS盘重新启动镜像激活SFS盘中的虚拟环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
非分离部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
增量模型训练 - AI开发平台ModelArts

资源限制：如果重新训练一个大型模型成本过高，增量训练可以是一个更经济的选择。避免灾难性遗忘：在传统训练中，新数据可能会覆盖旧数据的知识，导致模型忘记之前学到的内容。增量训练通过保留旧知识的同时学习新知识来避免这个问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用CES监控Lite Server资源 - AI开发平台ModelArts

查询缺少设备 LspciCardNotFound 重要一般是由于NPU掉卡联系运维人员协助处理 NPU卡无法正常使用 Snt3P 300IDuo Snt9B Snt9C NPU: 温度超过阈值 TemperatureOverUpperLimit 重要可能是由于DDR颗粒温度过高或过温软件预警

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
附录：部署常见问题 - AI开发平台ModelArts

附录：部署常见问题如何解决DeepSeek-R1概率不触发深度思考的问题问题：DeepSeek-R1概率不触发深度思考解决方法：在prompt后面添加“<think>\n“。如何解决“Available shared memory size is not enough“的问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？问题现象在使用Notebook过程中，界面出现“ModelArts.6333”报错信息。原因分析可能由于实例过负载引起故障，Notebook正在自动恢复中，请刷新页面并等待几分钟。常见原因是内存占用满。处理方法当出现此错误时

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' 问题现象在Notebook中使用!pip install numba命令安装了numba库且运行正常（且已保存为自定义镜像），

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练作业进程异常退出 - AI开发平台ModelArts

训练作业进程异常退出问题现象训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里的退出码是用户的训练作业代码返回的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

如果菜单栏中找不到“ModelArts > Edit Credential”，可能是PyCharm版本过高，PyCharm toolkit未适配2023.2之后版本的PyCharm工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例

总条数： 290

上一页
1
2
3
4
5
...
15
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线