搜索_华为云

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

NPU训练指导（6.3.910）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

NPU训练指导（6.3.911）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
Step4 测试用户权限 - AI开发平台ModelArts

Step4 测试用户权限由于4中的权限需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

按DLI分组资源名称查询DLI资源详细信息。 -k / --kind String 否按DLI分组资源类型查询DLI资源详细信息，支持jar、pyFile、file和modelFile。 -g / --group String 否按DLI分组资源组名查询DLI资源组详细信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

管理、高性能读取等。约束限制适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅支持在专属资源池上运行，确保专属资源池可以访问公网。文档更新内容 6.3.912版本相对于6.3.911版本新增如下内容：代码结构发生变化，统一了modellink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
ModelArts最佳实践案例列表 - AI开发平台ModelArts

rch，训练使用的资源是CPU或GPU。从0制作自定义镜像并用于训练（MPI+CPU/GPU） MPI 镜像制作自定义镜像训练 - 此案例介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI，训练使用的资源是CPU或GPU。

帮助中心 > AI开发平台ModelArts > 最佳实践
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

否，训练作业的日志里没有OOM报错，但是存在监控指标异常，执行3。排查训练代码是否存在不断占用资源的代码，使得资源未被合理使用。是，优化代码，等待作业运行正常。否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

Server适配ModelLink PyTorch NPU训练指导（6.3.912）场景介绍准备工作执行训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

NPU训练指导（6.3.908）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

NPU训练指导（6.3.909）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

NPU训练指导（6.3.907）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

NPU训练指导（6.3.909）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

NPU训练指导（6.3.910）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理

总条数： 1341

上一页
1
...
40
41
42
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线