检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.908)
主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 执行微调训练任务 查看日志和性能 训练脚本说明 附录:微调训练常见问题 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908)
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.909)
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
训练脚本说明 训练脚本存放目录说明 不同模型推荐的参数与NPU卡数设置 训练tokenizer文件说明 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
文生视频模型训练推理 CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导(6.3.912) CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导(6.3.911) Open-Sora1.2基于DevServer适配PyTorch
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
Gallery CLI配置工具指南 安装Gallery CLI配置工具 使用Gallery CLI配置工具下载文件 使用Gallery CLI配置工具上传文件 父主题: AI Gallery(新版)
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
合作伙伴 注册伙伴 发布解决方案 父主题: AI Gallery(旧版)
Session鉴权 (可选)Session鉴权 用户名密码认证模式 用户AK-SK认证模式
服务管理 服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
数据管理 数据集管理 数据集版本管理 样本管理 导入任务管理 导出任务管理 Manifest管理 标注任务管理
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
训练管理 训练作业 资源和引擎规格接口