检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
在计费。 有以下几种可能情况: 因为您在使用ModelArts过程中,将数据上传至OBS进行存储,OBS会根据实际存储的数据进行计费。建议前往OBS管理控制台,清理您不再使用的数据、文件夹以及OBS桶,避免产生不必要的费用。 您在创建Notebook时,选择了云硬盘EVS存储,该
载。 节点存储。多个容器可能会共享这一个存储,会存在写冲突的问题。 Pod删除后,存储不会清理。 使用主机路径 OBS 适用于训练数据集的存储。 对象存储。常用OBS SDK进行样本数据下载。存储量大,但是离节点比较远,直接训练速度会比较慢,通常会先将数据拉取到本地cache,然后再进行训练任务。
LLamaFactory PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导 LLM开源大模型基于Lite Cluster适配PyTorch
LLamaFactory PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导 LLM开源大模型基于Lite Cluster适配PyTorch
rts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。
rts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。
rts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
表3 部署本地服务predictor返回参数说明 参数 是否必选 参数类型 描述 predictor 是 Predictor对象 Predictor对象,其属性只包括推理服务测试。 父主题: 服务管理
LLamaFactory PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导 LLM开源大模型基于Lite Cluster适配PyTorch
图1 操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行,需要购买ModelArts专属资源池。 准备权重 准备对应模型的权重文件。 准备代码 准备AscendCloud-6.3.907-xxx.zip。
表2 操作任务流程说明 阶段 任务 说明 准备工作 准备环境 本教程案例是基于ModelArts Lite DevServer运行的,需要购买并开通DevServer资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据
表2 操作任务流程说明 阶段 任务 说明 准备工作 准备环境 本教程案例是基于ModelArts Lite DevServer运行的,需要购买并开通DevServer资源。 准备代码 准备AscendFactory训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练
表2 操作任务流程说明 阶段 任务 说明 准备工作 准备环境 本教程案例是基于ModelArts Lite DevServer运行的,需要购买并开通DevServer资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据
rts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh
将所需的数据上传至此OBS桶中。 检查OBS的路径是否正确,是否写为了“obs://xxx”。可使用如下方式判断OBS路径是否存在。 mox.file.exists('obs://bucket_name/sub_dir_0/sub_dir_1') 路径存在,请执行4。 路径不存在,请在更换为一个可用的OBS路径。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.3
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.3