检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908)
将权重文件上传到DevServer机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见表3。 如果使用模型训练后的权重文件进行推理,需要上传训练后的权重文件和开源的原始权重文件。模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。
xxx.zip到容器中,包获取路径请参见表1。 将权重文件上传到DevServer机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见表3。 Step4 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。 docker run -itd
Notebook中构建新镜像 ModelArts中注册镜像 通过ECS获取和上传基础镜像将基础镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。 访问ModelArts,在镜像管理中选择注册镜像,如图所示:
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。 图1 修改区分训练作业中2个代码目录 使用环境变量SAVE_PATH重新覆
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
场景介绍 方案概览 本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程,利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。
最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)