检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.911)
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.911)
文生视频模型训练推理 CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导(6.3.911) Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导(6.3.910) Open-Sora-Plan1.0基于DevServer适配PyTorch
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.907)
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)
基于ModelArts Standard运行GPU训练作业 在ModelArts Standard上运行GPU训练作业的场景介绍 在ModelArts Standard运行GPU训练作业的准备工作 在ModelArts Standard上运行GPU单机单卡训练作业 在ModelArts
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
FAQ CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装 如何保证训练和调试时文件路径保持一致 父主题: 专属资源池训练
典型场景配置实践 个人用户快速配置ModelArts访问权限 配置ModelArts基本使用权限 给子账号配置开发环境基本使用权限 给子账号配置训练作业基本使用权限 给子账号配置部署上线基本使用权限 管理员和开发者权限分离 给子账号配置查看所有Notebook实例的权限 限制用户使用公共资源池
SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.908) 训练场景和方案介绍 准备镜像环境 Finetune训练 LoRA训练 父主题: AIGC模型训练推理
历史待下线案例 使用AI Gallery的订阅算法实现花卉识别 示例:从 0 到 1 制作自定义镜像并用于训练(Pytorch+CPU/GPU) 示例:从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU) 使用ModelArts Standard一键完成商超商品识别模型部署
数字人模型训练推理 Wav2Lip推理基于DevServer适配PyTorch NPU推理指导(6.3.907) Wav2Lip训练基于DevServer适配PyTorch NPU训练指导(6.3.907)
Standard自动学习 使用ModelArts Standard自动学习实现口罩检测 使用ModelArts Standard自动学习实现垃圾分类