检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: MLLM多模态模型训练推理
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: MLLM多模态模型训练推理
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
训练对象,该对象包含job_id等属性,对训练作业的查询、更新、删除等操作时,可通过job_instance.job_id获取训练作业ID。 表7 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
复制单个大文件5G以上时可采用: from moxing.framework.file import file_io 查看当前moxing调用的接口版本:file_io._LARGE_FILE_METHOD,如果输出值为1则为V1版本,如果输出值为2,则为V2版本。 V1版本修改:file_io
Gallery CLI配置工具指南 安装Gallery CLI配置工具 使用Gallery CLI配置工具下载文件 使用Gallery CLI配置工具上传文件 父主题: AI Gallery(新版)
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
合作伙伴 注册伙伴 发布解决方案 父主题: AI Gallery(旧版)
Session鉴权 (可选)Session鉴权 用户名密码认证模式 用户AK-SK认证模式
服务管理 服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
数据管理 数据集管理 数据集版本管理 样本管理 导入任务管理 导出任务管理 Manifest管理 标注任务管理
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
Standard功能介绍 Standard自动学习 Standard Workflow Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
图解ModelArts 初识ModelArts 初识Workflow