检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
训练脚本说明 训练启动脚本说明和参数配置 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)
训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
多机训练场景下,需要将CODE_DIR修改为OBS_CODE_DIR目录,则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。 图3 多机同步权重文件 代码上传至OBS 将llm_train文件上传至OBS中。 结合准备数据、准
解析Pascal VOC文件 解析xml文件支持本地和OBS,如果是OBS,需要Session信息。 PascalVoc.parse_xml(xml_file_path, session=None) 示例代码 指定xml路径,通过调用parse_xml来解析获取xml文件的信息。
会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结
会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-qwenvl-7b中创建文件夹models。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结构,此处以Qwen/Qwen-VL-Chat为例:
多机训练场景下,需要将CODE_DIR修改为OBS_CODE_DIR目录,则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。 图3 多机同步权重文件 代码上传至OBS 将llm_train文件上传至OBS中。 结合准备数据、准
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
apply修改模型相关代码 代码上传至OBS 代码包解压后,在OBS中创建mllm_train目录,并将train/<commit_id>上传至该目录中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 obs://standard-qwenvl-7b
上传数据集至OBS 准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微调训练数据集下载链接下载数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。
训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910)
训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
jpeg。 上传数据集至OBS 准备数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: