检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: MLLM多模态模型训练推理
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: MLLM多模态模型训练推理
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
DeepSeek系列模型推理 DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 基于MaaS DeepSeek API和Dify快速构建网站智能客服 基于MaaS DeepSeek API和Cherry Studio快速构建个人AI智能助手
模型管理 模型调试 导入模型 查询模型列表 查询模型对象列表 查询模型详情 删除模型
导出任务管理 查询导出任务列表 创建导出任务 查询导出任务状态 父主题: 数据管理
Manifest管理 Manifest管理概述 解析Manifest文件 创建和保存Manifest文件 解析Pascal VOC文件 创建和保存Pascal VOC文件 父主题: 数据管理
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决: import moxing.tensorflow as mox mox.cache() 父主题: OBS操作相关故障
ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.912代码包中AscendCloud-LLM代码包结构如下: |——AscendCloud-LLM
是否必选 参数说明 YAML_FILE String 否 DLI Spark作业的配置文件本地路径,如果不传则表示配置文件为空。 --file String 是 程序运行入口文件,支持本地文件路径、OBS路径或者用户已上传到DLI资源管理系统的类型为jar或pyFile的程序包名。
LoRA训练是指在已经训练好的SDXL模型基础上,使用新的数据集进行LoRA微调以优化模型性能的过程。 本文档主要介绍如何利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,完成SDXL的LoRA微调训练。 资源规格要求 推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend
双击安装包,按照指示流程安装完成即可。 在Windows的“服务”中,找到Grafana,将其开启,如果已经开启,则直接进入4。 登录Grafana。 Grafana默认在本地的3000端口启动,打开链接http://localhost:3000,出现Grafana的登录界面。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。
benchmark run_benchmark.sh 是 运行benchmark的脚本,可本地直接运行。 run_benchmark_accuracy.sh 是 benchmark运行精度的脚本,可本地直接运行。 performance.txt 是 benchmark性能测试结果。 accuracy
obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在本地调试的情况下,必须是notebook目录,不能是OBS目录。 boot_file:必选参数,训练启动文件,在code_dir目录下。 ob