华为云用户手册

AI开发平台MODELARTS-准备镜像:基础镜像地址

基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a CANN：cann_8.0.rc2 PyTorch：2.1.0

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:基础镜像的使用

基础镜像的使用用户通过E CS 获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像（二选一）、ECS中构建新镜像（二选一）的方式（二选一）来部署训练环境。方案的区别如下：使用基础镜像（二选一）：用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。 ECS中构建新镜像（二选一）：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。若用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。注意：训练作业的资源池以及ECS都需要联通外网，否则会安装和下载失败。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:使用基础镜像（二选一）

使用基础镜像（二选一）通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，若直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图4中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。命令如下： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图4 训练作业启动命令

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:模型软件包结构说明

模型软件包结构说明本教程需要使用到的AscendCloud-6.3.910中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP，AscendCloud-LLM关键文件介绍如下。 |——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendSpeed # 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |──llama2 # llama2系列模型执行脚本的文件夹 |──llama3 # llama3系列模型执行脚本的文件夹 |──qwen # Qwen系列模型执行脚本的文件夹 |──qwen1.5 # Qwen1.5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools # 推理工具

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:上传代码和权重文件到工作环境

上传代码和权重文件到工作环境使用root用户以SSH的方式登录Server。将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩，如：/home/ma-user/ws目录下，以下都以/home/ma-user/ws为例，请根据实际修改。 unzip AscendCloud-*.zip 上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/Llama2-{MODEL_TYPE}目录，如Llama2-70B。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws，创建tokenizers文件目录将权重和词表文件放置此处，以Llama2-70B为例。 cd /home/ma-user/ws mkdir -p tokenizers/Llama2-70B 多机情况下，只有在rank_0节点进行数据预处理，转换权重等工作，所以原始数据集和原始权重，包括保存结果路径，都应该在共享目录下。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取模型软件包

获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.910-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.910 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:工作目录介绍

工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train #解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能代码包 |──scripts/ # 各模型训练需要的启动脚本，训练脚本以分类的方式集中在scripts文件夹中。 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件 |── saved_dir_for_output # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── logs # 训练过程中日志（loss、吞吐性能） |—— saved_models |── lora # lora微调输出权重 |── sft # 增量训练输出权重 |── pretrain # 预训练输出权重 |── tokenizers #tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data #原始数据目录，需要用户手动创建，后续操作步骤中会提示 |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #原始数据文件 |── alpaca_gpt4_data.json #微调数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:操作流程

操作流程图1 操作流程图表2 操作任务流程说明阶段任务说明准备工作准备资源本教程案例是基于ModelArts Standard运行，需要购买ModelArts专属资源池。准备权重准备对应模型的权重文件。准备代码准备AscendCloud-6.3.909-xxx.zip。准备镜像准备推理模型适用的容器镜像。准备Notebook 本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:支持的模型列表和权重文件

支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface.co/huggyllama/llama-7b 2 llama-13b √ √ √ √ √ https://huggingface.co/huggyllama/llama-13b 3 llama-65b √ √ √ √ √ https://huggingface.co/huggyllama/llama-65b 4 llama2-7b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 5 llama2-13b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 7 llama3-8b √ √ √ √ √ https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 8 llama3-70b √ √ √ √ √ https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 9 yi-6b √ √ √ √ √ https://huggingface.co/01-ai/Yi-6B-Chat 10 yi-9b √ √ √ √ √ https://huggingface.co/01-ai/Yi-9B 11 yi-34b √ √ √ √ √ https://huggingface.co/01-ai/Yi-34B-Chat 12 deepseek-llm-7b √ x x x x https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat 13 deepseek-coder-33b-instruct √ x x x x https://huggingface.co/deepseek-ai/deepseek-coder-33b-instruct 14 deepseek-llm-67b √ x x x x https://huggingface.co/deepseek-ai/deepseek-llm-67b-chat 15 qwen-7b √ √ √ √ x https://huggingface.co/Qwen/Qwen-7B-Chat 16 qwen-14b √ √ √ √ x https://huggingface.co/Qwen/Qwen-14B-Chat 17 qwen-72b √ √ √ √ x https://huggingface.co/Qwen/Qwen-72B-Chat 18 qwen1.5-0.5b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-0.5B-Chat 19 qwen1.5-7b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-7B-Chat 20 qwen1.5-1.8b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat 21 qwen1.5-14b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-14B-Chat 22 qwen1.5-32b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-32B/tree/main 23 qwen1.5-72b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-72B-Chat 24 qwen1.5-110b √ √ √ √ x https://huggingface.co/Qwen/Qwen1.5-110B-Chat 25 qwen2-0.5b √ √ √ √ x https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 26 qwen2-1.5b √ √ √ √ x https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 27 qwen2-7b √ √ x √ x https://huggingface.co/Qwen/Qwen2-7B-Instruct 28 qwen2-72b √ √ √ √ x https://huggingface.co/Qwen/Qwen2-72B-Instruct 29 baichuan2-7b √ x x √ x https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat 30 baichuan2-13b √ x x √ x https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat 31 gemma-2b √ x x x x https://huggingface.co/google/gemma-2b 32 gemma-7b √ x x x x https://huggingface.co/google/gemma-7b 33 chatglm2-6b √ x x x x https://huggingface.co/THUDM/chatglm2-6b 34 chatglm3-6b √ x x x x https://huggingface.co/THUDM/chatglm3-6b 35 glm-4-9b √ x x x x https://huggingface.co/THUDM/glm-4-9b-chat 36 mistral-7b √ x x x x https://huggingface.co/mistralai/Mistral-7B-v0.1 37 mixtral-8x7b √ x x x x https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 38 falcon-11b √ x x x x https://huggingface.co/tiiuae/falcon-11B/tree/main 39 qwen2-57b-a14b √ x x x x https://huggingface.co/Qwen/Qwen2-57B-A14B-Instruct 40 llama3.1-8b √ √ √ √ x https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 41 llama3.1-70b √ √ √ √ x https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 42 llama-3.1-405B √ √ x x x https://huggingface.co/hugging-quants/Meta-Llama-3.1-405B-Instruct-AWQ-INT4 43 llava-1.5-7b √ x x x x https://huggingface.co/llava-hf/llava-1.5-7b-hf/tree/main 44 llava-1.5-13b √ x x x x https://huggingface.co/llava-hf/llava-1.5-13b-hf/tree/main 45 llava-v1.6-7b √ x x x x https://huggingface.co/llava-hf/llava-v1.6-vicuna-7b-hf/tree/main 46 llava-v1.6-13b √ x x x x https://huggingface.co/llava-hf/llava-v1.6-vicuna-13b-hf/tree/main 47 llava-v1.6-34b √ x x x x llava-hf/llava-v1.6-34b-hf at main (huggingface.co) 48 internvl2-26B √ x x x x OpenGVLab/InternVL2-26B at main (huggingface.co) 49 MiniCPM-v2.6 √ x x x x https://huggingface.co/openbmb/MiniCPM-V-2_6/tree/main 50 deepseek-v2-236b x x √ x x https://huggingface.co/deepseek-ai/DeepSeek-V2 51 deepseek-v2-lite-16b √ x √ x x https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite 各模型支持的卡数请参见附录：基于vLLM不同模型推理支持最小卡数和最大序列说明章节。

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:约束限制

约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.909版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:用户自定义执行权重转换参数修改说明

用户自定义执行权重转换参数修改说明若用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron 转 Hugging Face格式，而脚本使用hf2hg、mg2hf参数传递来区分。方法一：用户可打开scripts/llama2/2_convert_mg_hf.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户在Notebook直接编辑scripts/llama2/2_convert_mg_hf.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令，随后在Notebook中运行该脚本。其中环境变量详细介绍如下：表1 权重转换脚本中的环境变量参数示例参数说明 $1 hf2hg、mg2hf 运行 2_convert_mg_hf.sh 时，需要附加的参数值。如下： hf2hg：用于Hugging Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/work/model/Llama2-13B 原始Hugging Face模型路径 CONVERT_MODEL_PATH /home/ma-user/work/llm_train/processed_for_ma_input/llama2-13b/converted_weights_TP8PP1 权重转换完成之后保存路径 TOKENIZER_PATH /home/ma-user/work/model/llama-2-13b-chat-hf tokenizer路径，即：原始Hugging Face模型路径 MODEL_SAVE_PATH /home/ma-user/work/llm_train/saved_dir_for_output/llama2-13b 训练完成后保存的权重路径。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:HuggingFace转Megatron参数说明

HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir : 权重转换完成之后保存路径。 --tokenizer-model : tokenizer路径。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:Megatron转HuggingFace参数说明

Megatron转HuggingFace参数说明训练完成的权重文件默认不会自动转换为Hugging Face格式权重。若用户需要自动转换，则在运行脚本，例如0_pl_pretrain_13b.sh中，添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下： --model-type：模型类型。 --save-model-type：输出后权重格式。 --load-dir：训练完成后保存的权重路径。 --save-dir：需要填入原始HF模型路径，新权重会存于../Llama2-13B/mg2hg下。 --target-tensor-parallel-size：任务不同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在/home/ma-user/work/llm_train/saved_dir_for_output/llama2-13b/saved_models/pretrain_hf/目录下查看转换后的权重文件。注意：权重转换完成后，需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

上传自定义数据到指定目录将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下：进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。 cd /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data 将自定义原始数据（指令监督微调样例数据集：alpaca_gpt4_data.json.json）按照下面的数据存放目录要求放置。指令微调样例数据集alpaca_gpt4_data.json.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json 数据存放参考目录结构如下： ${workdir}（例如/home/ma-user/ws/llm_train ） |── LLaMAFactory/data |── alpaca_en_demo.json # 代码原有数据集 |── identity.json # 代码原有数据集 ... |── alpaca_gpt4_data.json # 自定义数据集更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置，更多样例格式信息请参考data/README_zh.md 的内容。 vim dataset_info.json 新加配置参数如下： "alpaca_gpt4_data": { "file_name": "alpaca_gpt4_data.json" }, 样例截图：

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:模型软件包结构说明

模型软件包结构说明 AscendCloud-6.3.911代码包中AscendCloud-LLM代码包结构介绍如下，训练脚本以分类的方式集中在scripts文件夹中： |──llm_train # 模型训练代码包 |──AscendSpeed # 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |──llama2 # llama2系列模型执行脚本的文件夹 |──llama3 # llama3系列模型执行脚本的文件夹 |──qwen # Qwen系列模型执行脚本的文件夹 |──qwen1.5 # Qwen1.5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools # 推理工具

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:代码上传至SFS Turbo

代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS Turbo中，例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx.zip目录下并解压缩。 unzip AscendCloud-*.zip 结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至SFS Turbo后，目录结构如下。 /mnt/sfs_turbo/ |──llm_train # 解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能代码包 |──scripts/ # 训练需要的启动脚本 # 自动生成数据目录结构 |── processed_for_input # 目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件 |── saved_dir_for_output # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── logs # 训练过程中日志（loss、吞吐性能） |—— saved_models |── lora # lora微调输出权重 |── sft # 增量训练输出权重 |── pretrain # 预训练输出权重 # 以下目录结构，用户自己创建 |── training_data #原始数据目录，需要用户手动创建并上传，后续操作步骤中会提示 ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练时预处理后的数据存放地址 ├── alpaca_gpt4_data.json #微调数据文件 |── tokenizers #tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── llama2-13b-hf |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── llama2-13b-hf

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取模型软件包

获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.911 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

AI开发平台MODELARTS
AI开发平台MODELARTS-使用AWQ量化:Step3 权重格式离线转换（可选）

Step3 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。 python convert_awq_to_npu.py --model /home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。

AI开发平台MODELARTS
AI开发平台MODELARTS-使用AWQ量化:Step1 环境准备

Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata: name: yourapp labels: app: infers spec: replicas: 1 selector: matchLabels: app: infers template: metadata: labels: app: infers spec: schedulerName: volcano nodeSelector: accelerator/huawei-npu: ascend-1980 containers: - image: ${image_name} # 推理镜像名称 imagePullPolicy: IfNotPresent name: ${container_name} securityContext: runAsUser: 0 ports: - containerPort: 8080 command: - "sleep" - "1000000000000000000" resources: requests: huawei.com/ascend-1980: "8" # 需求卡数，key保持不变。 limits: huawei.com/ascend-1980: "8" # 限制卡数，key保持不变。 volumeMounts: # 容器内部映射路径 - name: ascend-driver #驱动挂载，保持不动 mountPath: /usr/local/Ascend/driver - name: ascend-add-ons #驱动挂载，保持不动 mountPath: /usr/local/Ascend/add-ons - name: hccn #驱动hccn配置，保持不动 mountPath: /etc/hccn.conf - name: localtime mountPath: /etc/localtime - name: npu-smi # npu-smi mountPath: /usr/local/sbin/npu-smi - name: model-path # 模型权重路径 mountPath: ${model-path} - name: node-path # 节点自定义目录，该目录下包含pod配置文件config.yaml mountPath: ${node-path} volumes: # 物理机外部路径 - name: ascend-driver hostPath: path: /usr/local/Ascend/driver - name: ascend-add-ons hostPath: path: /usr/local/Ascend/add-ons - name: hccn hostPath: path: /etc/hccn.conf - name: localtime hostPath: path: /etc/localtime - name: npu-smi hostPath: path: /usr/local/sbin/npu-smi - name: model-path hostPath: path: ${model-path} - name: node-path hostPath: path: ${node-path} 参数说明： ${container_name}：容器名称，此处可以自己定义一个容器名称，例如ascend-vllm。 ${image_name}：Step3 制作推理镜像构建的推理镜像名称。 ${node-path}：节点自定义目录，该目录下包含pod配置文件config.yaml。 ${model-path}：Step1 上传权重文件中上传的模型权重路径。参考Step4 创建pod创建pod以用于后续进行模型量化

AI开发平台MODELARTS
AI开发平台MODELARTS-训练启动脚本说明和参数配置:模型推荐的参数与NPU卡数设置

模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 2 llama2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 3 llama2-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 4 llama3 llama3-8b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 5 llama3-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 6 Qwen qwen-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 7 qwen-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 8 qwen-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 9 Qwen1.5 qwen1.5-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 10 qwen1.5-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 11 qwen1.5-32b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend 12 qwen1.5-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 13 Yi yi-6b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 14 yi-34b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend 15 ChatGLMv3 glm3-6b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 16 Baichuan2 baichuan2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 17 Qwen2 qwen2-0.5b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 18 qwen2-1.5b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 19 qwen2-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 20 qwen2-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 21 GLMv4 glm4-9b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 22 mistral mistral-7b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 23 mixtral mixtral-8x7b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8 2*节点 & 8*Ascend 24 llama3.1 llama3.1-8b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 25 llama3.1-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:模型软件包结构说明

模型软件包结构说明本教程需要使用到的AscendCloud-6.5.901中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP，AscendCloud-LLM关键文件介绍如下。 |——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendFactory |──examples/ # config配置文件目录 |──data.tgz # 样例数据压缩包 |──third-party/ # patch包 |──src/acs_train_solution/ # 训练运行包 |──intall.sh # 需要的依赖包 |──scripts_llamafactory/ # llamafactory兼容旧版本启动方式目录 |──scripts_modellink/ # modelLink兼容旧版本启动方式目录 |──Dockerfile

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:工作目录介绍

工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${workdir} |──llm_train # 模型训练代码包 |──AscendFactory |──config/ # 配置文件 |──deepspeed/ # deepspeed配置json文件 |──modellink_performance_cfgs.yaml # ModelLink训练配置json文件 |──....... |──data.tgz #样例数据压缩包 |──intall.sh # 需要的依赖包 |──scripts_modellink/ # modelLink兼容旧版本启动方式目录 |──llama3 # llama3系列模型执行脚本的文件夹 |──qwen2.5 # Qwen2.5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |──third-party/ # patch包 |──src/acs_train_solution/ # 训练运行包 |──ascendcloud_patch/ # patch补丁包 |──benchmark/ #工具包，存放数据集及基线数据 |──trainer.py # 训练启动脚本 |──performance.py # benchmark训练性能比较启动脚本 |──accuracy.py # benchmark训练精度启动脚本 |──model/Qwen2-7B/ # 权重词表文件目录，如Qwen2-7B |──training_data # 原始数据目录 |──alpaca_gpt4_data.json # 微调数据 |──train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练数据 |──{output_dir} #{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置值 # 自动生成数据目录结构 |── preprocessed_data |──converted_hf2mg_weight_TP${TP}PP${PP} |──checkpoint # 训练完成生成目录Qwen2-7B，自动生成

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:上传代码和权重文件到工作环境

上传代码和权重文件到工作环境使用root用户以SSH的方式登录DevServer。将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩，如SFS Turbo的路径：/mnt/sfs_turbo目录下，以下都以/mnt/sfs_turbo为例，请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务如产生mc2融合算子错误，可参考mc2融合算子报错上传tokenizers文件到工作目录中的/mnt/sfs_turbo/tokenizers/Llama2-{MODEL_TYPE}目录，如Llama2-70B。具体步骤如下：进入到${workdir}目录下，如：/mnt/sfs_turbo，创建tokenizers文件目录将权重和词表文件放置此处，以Llama2-70B为例。 cd /mnt/sfs_turbo mkdir -p models/Llama2-70B

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取模型软件包和权重文件

获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.5.901-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E，在此路径中查找下载ModelArts6.5.901 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

AI开发平台MODELARTS
AI开发平台MODELARTS-各模型支持的最小卡数和最大序列

各模型支持的最小卡数和最大序列基于vLLM（v0.6.3）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。 e5-mistral-7B和gte-Qwen2-7B-instruct模型，使用openai启动服务，发送推理请求使用的是接口curl -X POST http://localhost:port/v1/embedding。表1 基于vLLM不同模型推理支持最小卡数和最大序列说明序号模型名 32GB显存 64GB显存最小卡数最大序列(K) max-model-len 最小卡数最大序列(K) max-model-len 1 llama-7b 1 16 1 32 2 llama-13b 2 16 1 16 3 llama-65b 8 16 4 16 4 llama2-7b 1 16 1 32 5 llama2-13b 2 16 1 16 6 llama2-70b 8 32 4 64 7 llama3-8b 1 32 1 128 8 llama3.1-8b 1 32 1 128 9 llama3-70b 8 32 4 64 10 llama3.1-70b 8 32 4 64 11 llama3.2-1b 1 128 1 128 12 llama3.2-3b 1 128 1 128 13 qwen-7b 1 8 1 32 14 qwen-14b 2 16 1 16 15 qwen-72b 8 8 4 16 16 qwen1.5-0.5b 1 128 1 256 17 qwen1.5-7b 1 8 1 32 18 qwen1.5-1.8b 1 64 1 128 19 qwen1.5-14b 2 16 1 16 20 qwen1.5-32b 4 32 2 64 21 qwen1.5-72b 8 8 4 16 22 qwen1.5-110b - - 8 128 23 qwen2-0.5b 1 128 1 256 24 qwen2-1.5b 1 64 1 128 25 qwen2-7b 1 8 1 32 26 qwen2-72b 8 32 4 64 27 qwen2.5-0.5b 1 32 1 32 28 qwen2.5-1.5b 1 32 1 32 29 qwen2.5-3b 1 32 1 32 30 qwen2.5-7b 1 32 1 32 31 qwen2.5-14b 2 32 1 32 32 qwen2.5-32b 4 32 2 64 33 qwen2.5-72b 8 32 4 32 34 chatglm2-6b 1 64 1 128 35 chatglm3-6b 1 64 1 128 36 glm-4-9b 1 32 1 128 37 baichuan2-7b 1 8 1 32 38 baichuan2-13b 2 4 1 4 39 yi-6b 1 64 1 128 40 yi-9b 1 32 1 64 41 yi-34b 4 32 2 64 42 deepseek-llm-7b 1 16 1 32 43 deepseek-coder-33b-instruct 4 32 2 64 44 deepseek-llm-67b 8 32 4 64 45 mistral-7b 1 32 1 128 46 mixtral-8x7b 4 8 2 32 47 gemma-2b 1 64 1 128 48 gemma-7b 1 8 1 32 49 falcon-11b 1 8 1 64 50 llama-3.1-405B-AWQ - - 8 32 51 qwen2-57b-a14b - - 2 16 52 deepseek-v2-lite-16b 2 4 1 4 53 deepseek-v2-236b - - 8 4 54 qwen-vl 1 64 1 64 55 qwen-vl-chat 1 64 1 64 56 MiniCPM-v2 2 16 1 16 57 e5-mistral-7B 1 8 1 64 58 gte-Qwen2-7B-instruct 1 8 1 64 59 llava-1.5-7b 1 16 1 32 60 llava-1.5-13b 1 8 1 16 61 llava-v1.6-7b 1 16 1 32 62 llava-v1.6-13b 1 8 1 16 63 llava-v1.6-34b 4 32 2 64 64 internvl2-8b 1 16` 1 32 65 internvl2-26b 2 8 1 8 66 internvl2-40b - - 2 32 67 internVL2-Llama3-76B - - 4 8 68 internVL2-Llama3-76B-AWQ 2 8 1 8 69 MiniCPM-v2.6 - - 1 8 70 qwen2-vl-2B 1 8 1 8 71 qwen2-vl-7B 1 8 1 32 72 qwen2-vl-72B - - 4 32 73 qwen2-vl-72B-AWQ 2 32 1 32 74 llava-onevision-qwen2-0.5b-ov-hf 2 8 1 8 75 llava-onevision-qwen2-7b-ov-hf 2 8 1 8 “-”表示不支持。父主题：附录

AI开发平台MODELARTS 附录
AI开发平台MODELARTS-SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）:步骤二：上传代码、权重和数据集到容器中

步骤二：上传代码、权重和数据集到容器中安装插件代码包。将获取到的插件代码包AscendCloud-AIGC-6.3.912-xxx.zip文件上传到容器的/home/ma-user目录下，并解压。 cd /home/ma-user unzip AscendCloud-AIGC-6.3.912-*.zip #解压下载模型权重，上传到容器的/home/ma-user目录下，官网下载地址（需登录）。对于Diffusers框架，需要下载huggingface全部文件。 stabilityai/stable-diffusion-3.5-medium：https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/tree/main stabilityai/stable-diffusion-3.5-large：https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main 如果无法手动下载，可以先在容器内命令行输入以下命令，然后使用个人huggingface token进行登录： huggingface-cli login 登录成功后，直接启动步骤三中的Diffusers推理脚本即可实现自动下载。对于ComfyUI框架，只需要下载safetensors文件即可，即 https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/sd3.5_medium.safetensors https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors 此外ComfyUI需要额外下载三个text_encoder相关模型： https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp16.safetensors ComfyUI框架还需要下载推理所需的workflow： https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/SD3.5M_example_workflow.json https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/SD3.5L_example_workflow.json

AI开发平台MODELARTS
AI开发平台MODELARTS-SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）:步骤一：检查环境

步骤一：检查环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward 获取基础镜像。建议使用官方提供的镜像部署推理服务。镜像地址{image_url}参见表1：获取软件和镜像 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 docker run -itd \ --name ${container_name} \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -p 8443:8443 \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ --shm-size 60g \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ --device=/dev/davinci1 \ --network=bridge \ ${image_name} bash 参数说明： --name ${container_name} 容器名称，进入容器时会用到，此处可以自己定义一个容器名称，例如sdxl-diffusers。 --device=/dev/davinci1：挂载主机的/dev/davinci3到容器的/dev/davinci1。可以使用npu-smi info查看空闲卡号，修改davinci后数字可以更改挂载卡。 ${image_name} 代表 ${image_name}。 -p 8443:8443：容器内映射到宿主机的端口号，如果已被占用可以使用其他未占用的端口号进入容器。需要将${container_name}替换为实际的容器名称。 docker exec -it ${container_name} bash

AI开发平台MODELARTS
AI开发平台MODELARTS-SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像包 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527 SWR上拉取。

AI开发平台MODELARTS
AI开发平台MODELARTS-SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）:步骤三：使用Diffusers推理

步骤三：使用Diffusers推理进入容器中/home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers路径下。 cd /home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers 安装所需依赖包。 pip install -e . pip install diffusers==0.31.0 开始推理。 export MODEL_NAME='下载好的huggingface模型路径，例如/home/ma-user/stable-diffusion-3.5-medium。如果未手动下载，想要自动下载的话直接配置模型名称即可，例如stabilityai/stable-diffusion-3.5-medium，见步骤二第2节' cd examples python sd_inference_example.py --sd35 --model_id ${MODEL_NAME} --prompt 'a dog' --num_inference_steps 28 --width 512 512 768 1024 768 --height 512 768 768 1024 1024 --dynamo

AI开发平台MODELARTS
AI开发平台MODELARTS-SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）:步骤四：使用ComfyUI推理

步骤四：使用ComfyUI推理拉取ComfyUI代码。 cd /home/ma-user git clone -c http.sslVerify=false https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 切换到0.2.7分支 git reset --hard 6966729 修改requirements.txt中的torch/torchvision/torchaudio版本号如下图：保存requirements.txt后安装所需依赖： # 安装依赖 pip install -r requirements.txt 进入容器中/home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers路径下。 cd /home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers 安装所需依赖包。 pip install -e . pip install diffusers==0.31.0 使用comfyui_ascend_node。 cp -r /home/ma-user/aigc_inference/torch_npu/comfyui/a82fae2/comfyui_ascend_node /home/ma-user/ComfyUI/custom_nodes/ 加载权重。将下载好的sd3.5_medium.safetensors，sd3.5_large.safetensors到/home/ma-user/ComfyUI/models/checkpoints 目录下；将下载好的text_encoder权重（clip_l.safetensors, clip_g.safetensors and t5xxl_fp16.safetensors），放到 /home/ma-user/ComfyUI/models/clip 目录下。启动ComfyUI。 cd /home/ma-user/ComfyUI export GRAPH_MODE=1 export INF_NAN_MODE_ENABLE=0 python main.py --port 8443 --force-fp16 --listen --port 端口号与启动容器时映射到宿主机的端口号保持一致。发送服务请求。从浏览器访问ComfyUI服务。在浏览器中输入 http://{ip}:{port} 这里的ip为宿主机节点ip，port为启动ComfyUI使用的端口号。访问界面，页面工作流示例如下图所示。加载SD3.5workflow文件。单击“Load”，选择下载好的SD3.5M_example_workflow.json或者SD3.5L_example_workflow.json。选择diffusion model ，如下图。如果加载的是SD3.5M_example_workflow.json，这里选择sd3.5_medium.safetensors；如果加载的是SD3.5L_example_workflow.json，这里选择sd3.5_large.safetensors。选择clip 模型，如下图。配置推理的参数，如steps，width，height，batch_size等单击“Queue Prompt”加入推理队列进行推理，如下图。成功之后结果如下图所示。首次加载或切换模型推理时，需要加载模型并进行相关初始化工作，首次推理时间较长，请耐心等待。

AI开发平台MODELARTS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！