检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 下载代码之后需要修改llm_train/AscendSpeed/scripts/install.sh文件。具体为删除install.sh的第43行
减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 问题:使用TrainingLogParser工具解析训练日志中loss数据,坐标栏空白,未显示数据走势曲线。 解决方法:在解析工具页面右侧,单击日志文件名右边的设置图标,在弹出的窗口中修改Loss
表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2 7B lora 4096/8192 gradient_accumulation_steps:
在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://standard-qwenvl-7b └── training_data
在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://standard-qwenvl-7b └── training_data
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至OBS 将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。
本教程需要使用到的AscendCloud-3rdLLM-xxx.zip软件包中的关键文件介绍如下。 ├──llm_tools #推理工具包 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval # 精度评测
表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2 7B lora 4096/8192 gradient_accumulation_steps:
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──ascendcloud_patch/ # patch补丁包 |──benchmark/ #工具包,存放数据集及基线数据 |──trainer.py # 训练启动脚本
bucket/XXX.txt”。用户无法直接使用open方法打开OBS文件,上面描述的打开本地文件的代码将会报错。 OBS提供了很多方式和工具给用户使用,如SDK、API、console、OBS Browser等,ModelArts mox.file提供了一套更为方便地访问OBS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至OBS 将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。
ue 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Dee
gid=100(ma-group) groups=100(ma-group) 安装和配置OBS命令行工具 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。
释放资源。保存在其中的代码文档将丢失,请注意备份文件以及使用时长。 CodeLab入口 ModelArts管理控制台的“总览”页 在“开发工具”区域下方,展示“CodeLab”简介卡片,单击“立即体验”,即可进入。 图1 CodeLab入口 AI Gallery页面提供的Notebook样例
ue 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Dee
ue 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Dee