检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品发布说明 ModelArts版本配套关系表 昇腾云服务6.3.912版本说明 昇腾云服务6.3.911版本说明 昇腾云服务6.3.910版本说明(推荐) 昇腾云服务6.3.909版本说明 昇腾云服务6.3.908版本说明 昇腾云服务6.3.907版本说明 昇腾云服务6.3.906版本说明
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
部署上线 部署上线失败 父主题: 自动学习
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
推理部署 模型管理 服务部署 服务预测
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
训练benchmark工具 工具介绍及准备工作 训练性能测试 训练精度测试 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)
主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911)
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 mc2融合算子报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.912)
执行训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.912)
主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练benchmark工具 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理
主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 训练任务 查看日志和性能 训练脚本说明参考 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 将数据预热到SFS Turbo 准备镜像 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
应用迁移 模型适配 pipeline代码适配 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导