搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

处理方法使用Qwen2.5-72B-1K或Qwen2.5-32B模型的Checkpoint创建模型时，建议关闭权重校验。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询训练作业列表 - AI开发平台ModelArts

token。表63 MindStudioInsight 参数参数类型描述 url String 训练作业的MindStudio Insight地址。 token String 训练作业的MindStudio Insight token。请求示例查询训练作业。设置查询训练作业限制个数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

86版本软件导致的，需要用户使用较低版本的VS Code 。解决方案使用VS Code 1.85版本软件。下载链接：https://code.visualstudio.com/updates/v1_85。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询训练作业详情 - AI开发平台ModelArts

String 内存。表47 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表48 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

下载工具源码使用。集群分析工具 MindStudio-Insight 性能可视化工具，采集好的profiling数据可通过该工具进行可视化展示，辅助人工进行profiling数据查看和分析。 windows版本工具，下载链接见教程内。 MindStudio-Insight用户指南 PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
终止训练作业 - AI开发平台ModelArts

String 内存。表48 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表49 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
msprobe精度分析工具使用指导 - AI开发平台ModelArts

seed(seed) 设置random随机生成器的种子。 np.random.seed(seed) 设置numpy中随机生成器的种子。 torch.manual_seed(seed) 设置当前CPU的随机种子。 torch.cuda.manual_seed(seed) 设置当前GPU的随机种子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

方法2：可以参考如下方法调整代码中的参数，减少内存占用。如果代码调整后仍然出现内存不足的情况，请使用方法1。调用sklearn方法silhouette_score(addr_1,siteskmeans.labels)，可以指定参数sample_size来减少内存占用。调用train方法的时候

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
安装VS Code软件 - AI开发平台ModelArts

安装VS Code软件 VS Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练作业失败，返回错误码139 - AI开发平台ModelArts

pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。

帮助中心 > AI开发平台ModelArts > SDK参考
在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？在Dockerfile中，可使用ENV指令来设置环境变量，具体信息请参考Dockerfile指导。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关

总条数： 1159

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时，权重校验失败 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线