搜索_华为云

显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

Standard部署模型并推理预测推理部署使用场景创建AI应用创建AI应用规范参考将AI应用部署为实时推理作业将AI应用部署为批量推理服务管理AI应用管理同步在线服务管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。操作步骤登录Imagenet数据集下载官网地址，下载Imagenet21k数据集：http://image-net.org/ 下载格式转换后的annotation文件：ILSVRC2021winner21k_whole_map_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
开启训练故障自动重启功能 - AI开发平台ModelArts

int机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练作业容错检查 - AI开发平台ModelArts

补充健康的计算节点至专属资源池。（该功能即将上线）容错检查详细介绍请参考：开启容错检查检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
一般性问题 - AI开发平台ModelArts

什么是ModelArts ModelArts与其他服务的关系 ModelArts与DLS服务的区别？如何购买或开通ModelArts？支持哪些型号的Ascend芯片？如何获取访问密钥？如何上传数据至OBS？提示“上传的AK/SK不可用”，如何解决？使用ModelArts时提示“权限不足”，如何解决？

帮助中心 > AI开发平台ModelArts > 常见问题
历史API - AI开发平台ModelArts
历史API - AI开发平台ModelArts

历史API 数据管理（旧版）开发环境（旧版）训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

下线公告【下线公告】华为云ModelArts服务旧版训练管理下线公告【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts旧版自动学习下线公告【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告【下线公告】华为云ModelArts服务旧版数据集下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

launch命令启动训练作业。创建训练作业的关键参数如表2所示。表2 创建训练作业（自定义镜像+torch.distributed.launch命令）参数名称说明创建方式选择“自定义算法”。启动方式选择“自定义”。镜像选择用于训练的PyTorch镜像。代码目录选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

发现“no-auto-default=*”是打开的状态，“no-auto-default=*”含义是关闭DH Client，无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SFT微调训练任务 - AI开发平台ModelArts

训练前，可以根据实际需要修改超参配置。微调任务配置，操作同预训练配置类似，不同点为RUN_TYPE类型不同，以及输入输出路径的配置的不同。SFT微调的计算量与预训练基本一致，故配置可以与预训练相同。表1 SFT微调超参配置参数示例值参数说明 DATASET_PATH /

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
自定义脚本代码示例 - AI开发平台ModelArts

run(tf.global_variables_initializer()) # 定义预测接口的inputs和outputs # inputs和outputs字典的key值会作为模型输入输出tensor的索引键 # 模型输入输出定义需要和推理自定义脚本相匹配 predict_signature

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建AI应用规范参考

总条数： 1545

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

一般性问题 - AI开发平台ModelArts

历史API - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

SFT微调训练任务 - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线