搜索_华为云

显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
部署在线服务 - AI开发平台ModelArts

subnet_network_id 否 String 子网的网络ID，默认为空，当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 security_group_id 否 String 安

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与下一次模型推理并行计算，从而减少总推理时延。该参数需要设置环境变量DEFER_DECODE=1才能生效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与下一次模型推理并行计算，从而减少总推理时延。该参数需要设置环境变量DEFER_DECODE=1才能生效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
训练前卡死 - AI开发平台ModelArts

completion with error 12, opcode 1, len 32478, vendor err 129等通信信息时，说明当前网络不是很稳定。解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3：使用RoCE v2协议，默认使用RoCE v1，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
OOM导致训练作业失败 - AI开发平台ModelArts

还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。释放一些不需要的tensor，使用过的，如下： del tmp_tensor

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

容器镜像仓库所有权限。使用SWR服务时需要配置。同时，还需开通SWR组织权限。 VPC虚拟私有云子用户在创建ModelArts的专属资源池过程中，如果需要开启自定义网络配置，需要配置VPC权限。 DEW密钥管理服务当子用户使用ModelArts Notebook的SSH远程功能时，需要配置子用户密钥管理服务的使用权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
增量模型训练 - AI开发平台ModelArts

保存整个Model（不推荐） torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。将模型训练过程中的网络权重、优化器权重、以及epoch进行保存，便于中断后继续训练恢复。 checkpoint = { "net":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
模型训练存储加速 - AI开发平台ModelArts

保存整个Model（不推荐） torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。将模型训练过程中的网络权重、优化器权重、以及epoch进行保存，便于中断后继续训练恢复 checkpoint = { "net": model.state_dict()

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
推理精度测试 - AI开发平台ModelArts

目录结构如下： benchmark_eval ├──apig_sdk # ma校验包 ├──cpu_npu # 检测资源消耗 ├── config │ ├── config.json # 服务的配置模板，已配置了ma-standard，tgi示例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.904）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

空间），容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置若已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
部署推理服务 - AI开发平台ModelArts

行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与下一次模型推理并行计算，从而减少总推理时延。该参数需要设置环境变量DEFER_DECODE=1才能生效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
训练的数据集预处理说明 - AI开发平台ModelArts

inedFromHF']，一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练数据集预处理说明 - AI开发平台ModelArts

inedFromHF']，一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
创建生产训练作业 - AI开发平台ModelArts

8个盘。如果要使用训练作业挂载SFS Turbo功能，需要配置ModelArts和SFS Turbo间网络直通，具体操作请参见配置ModelArts和SFS Turbo间网络直通。云上挂载路径有如下限制：不能为 / 目录，不能为 /cache、 /home/ma-user/m

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 507

上一页
1
...
16
17
18
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

训练前卡死 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线