检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json文件中的图片路径为数据集相对路径,例如qwenvl_dataset/new_single_bar/Chongqing.jpeg。 上传数据集至OBS 准备数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的
上传数据集至OBS 准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微调训练数据集下载链接下载数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。
保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step,则会保存一次权重文件。 CONVERT_MG2HF TRUE
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权
保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权
训练脚本说明 训练脚本存放目录说明 不同模型推荐的参数与NPU卡数设置 训练tokenizer文件说明 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
训练脚本说明 训练启动脚本说明和参数配置 训练数据集预处理说明 训练权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
Standard数据管理相关计费FAQ ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。 建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.3
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.3
aml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定
设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。设置为“数据集”时,需填写“数据集名称”和“数据集版本”;设置为“OBS目录”时,需填写正确的OBS路径。 图3 输入输出设置-数据集 图4 输入输出设置-OBS目录 确认参数填写无误后,单击“创建”,完成数据处理任务的创建。
训练脚本说明 训练脚本参数说明 不同模型推荐的参数与NPU卡数设置 训练tokenizer文件说明 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)