华为云用户手册

AI开发平台MODELARTS-ModelArts Lite Server环境:步骤一：准备工作

步骤一：准备工作已完成准备工作步骤根据实际所选训练框架及评测指标修改examples/config目录下相应yaml文件参数配置或参考样例自定义yaml文件，参数详解可参考MindSpeed-LLM、Llama-Factory【二选一】。 |──AscendFactory/examples/config/ # config配置文件 |──modellink_performance_cfgs.yaml # mindspeed-llm性能最优参数yaml文件 |──modellink_accuracy_cfgs.yaml # mindspeed-llm精度yaml文件 |──performance_cfgs.yaml # Llama-Factory大语言类微调性能yaml文件 |──llama_factory_accuracy_baseline.yaml # Llama-Factory微调精度yaml文件 |──llama_factory_performance_cfgs_VL.yaml # 多模态类微调yaml配置文件样例yaml配置文件结构如下： base块：基础配置块，主要为公共配置参数 ModelName块：该模型所需配置的参数，如qwen2.5-7b块 exp_name：实验块，训练策略-序列长度所需参数配置样例yaml文件仅展示常用实验配置，如需其他配置需根据样例自行添加。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step8 启动scheduler实例

Step8 启动scheduler实例建议在PD服务（即全量推理和增量推理服务）启动后，再启动scheduler服务。启动scheduler容器。启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示，启动成功会有对应的docker id生成，并且不会报错。 docker run -itd \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /etc/ascend_install.info:/etc/ascend_install.info \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v ${dir}:${container_work_dir} \ --net=host \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明： --device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了0张卡。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID，即第四步中生成的新镜像id，在宿主机上可通过docker images查询得到。进入容器。 docker exec -it -u ma-user ${container-name} /bin/bash 启动scheduler实例，命令如下。 export GLOBAL_RANK_TABLE_FILE_PATH=global_ranktable_10.**.**.18.json export RANK_TABLE_FILE_PATH=local_rank_table_10.**.**.18_host.json export NODE_PORTS=8088,8089 export USE_OPENAI=1 sh AscendCloud-LLM/llm_tools/PD_separate/start_servers.sh \ --model=${model} \ --tensor-parallel-size=2 \ --max-model-len=4096 \ --max-num-seqs=256 \ --max-num-batched-tokens=4096 \ --host=0.0.0.0 \ --port=9000 \ --served-model-name ${served-model-name} # 当前schduler端口port对外提供推理服务，故使用该端口进行性能验证和精度对齐其中环境变量说明如下： GLOBAL_RANK_TABLE_FILE_PATH：global rank_table的路径，必选。不同实例类型的global rank_table均一致。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量/增量推理实例启动的--port参数相关，--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。当前端口9000是对外服务端口，而8088、8089则为scheduler调度推理服务端口。 USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下， --host：服务部署的IP --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量 --max-model-len：模型能处理的请求输入+输出的token长度 --max-num-batched-tokens：最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192 --tensor-parallel-size：模型并行数量 --served-model-name：openai服务的model入参名称，仅在环境变量USE_OPENAI=1时候生效。 --quantization：如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。全量和增量节点的local rank table必须一一对应。全量和增量节点不能使用同一个端口。 scheduler实例中NODE_PORTS=8088,8089；端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致，否则会报错。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step5 生成ranktable

Step5 生成ranktable 介绍如何生成ranktable，以1p1d-tp2分离部署模式为例。当前1p1d分离部署模式，全量节点和增量节点分别占用2张卡，一共使用4张卡。配置tools工具根目录环境变量使用AscendCloud-LLM发布版本进行推理，基于AscendCloud-LLM包的解压路径配置tool工具根目录环境变量： export LLM_TOOLS_PATH=${root_path_of_AscendCloud-LLM}/llm_tools 其中，`${root_path_of_AscendCloud-LLM}`为AscendCloud-LLM包解压后的根路径。当使用昇腾云的官方指导文档制作推理镜像时，可直接基于该固定路径配置环境变量： export LLM_TOOLS_PATH=/home/ma-user/AscendCloud/AscendCloud-LLM/llm_tools 获取每台机器的rank_table 在每个机器生成global rank_table信息与local rank_table信息。 python ${LLM_TOOLS_PATH}/PD_separate/pd_ranktable_tools.py --mode gen --prefill-server-list 4,5 --decode-server-list 6,7 --api-server --save-dir ./save_dir 执行后，会生成一个global_ranktable.json文件和使用实例个数的local_ranktable.json文件；如果指定了`--api-server`，还会生成一个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir 生成ranktable文件如下（假设本地主机ip为10.**.**.18）。 global_ranktable_10.**.**.18.json # global rank_table local_ranktable_10.**.**.18_45.json # 全量节点local rank_table local_ranktable_10.**.**.18_67.json # 增量节点local rank_table local_ranktable_10.**.**.18_host.json # api-server 合并不同机器的global rank_table(可选) 如果分离部署在多台机器，获取每台机器的rank_table后，合并各个机器的global rank_table得到完整的global rank_table。 python ${LLM_TOOLS_PATH}/PD_separate/pd_ranktable_tools.py --mode merge --global-ranktable-list ./ranktable/global_ranktable_0.0,0,0.json ./ranktable/global_ranktable_1.1.1.1.json --save-dir ./save_dir pd_ranktable_tools.py的入参说明如下。 --mode：脚本的处理模式，可选值为`gen`或者`merge`。`gen`模式表示生成rank_table文件，`merge`模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。 --api-server：仅在`gen`模式有效，可选输入，当存在该输入时，表示分离部署的服务入口在该机器。注意，在多台机器启动分离部署时，只能有一台机器存在服务入口。当存在该输入时，会生成local_ranktable_xx_host.json文件，用于在启动推理服务时确定服务入口实例。 --prefill-server-list：仅在`gen`模式有效，可选输入，后续入参表示若干个vllm全量实例，使用空格隔开，每个vllm实例的数字表示使用的昇腾卡device_id，使用多个昇腾卡时，device_id之间使用`,`分隔开。当存在该输入时，会生成对应全量实例个数的local_ranktable_xx_yy.json文件，用于在启动推理服务时确定全量实例。 --decode-server-list：仅在`gen`模式有效，可选输入，后续入参表示若干个vllm增量实例，使用空格隔开，每个vllm实例的数字表示使用的昇腾卡device_id，使用多个昇腾卡时，device_id之间使用`,`分隔开。当存在该输入时，会生成对应增量实例个数的local_ranktable_xx_yy.json文件，用于在启动推理服务时确定增量实例。 --global-ranktable-list：仅在`merge`模式有效，必选输入，后续入参表示需要合并的global rank_table，使用空格分隔开。执行后，会生成完成合并的global_ranktable_merge.json文件。 global_rank_table.json格式说明 server_group_list的长度必须为3，第一个元素(group_id="0")代表Scheduler实例的ip信息，只能有一个实例。第二个元素(group_id="1")代表全量实例信息，长度即为全量实例个数。其中需要配置每个全量实例的ip信息以及使用的device信息。rank_id为逻辑卡号，必然从0开始计算，device_id为物理卡号，device_ip则通过上面的hccn_tool获取。第三个元素(group_id="2")代表增量实例信息，长度即为增量实例个数。其余信息和全量类似。 global_rank_table.json具体示例如下： { "version": "1.0", "status": "completed", "server_group_list": [ { "group_id": "0", "server_count": "1", "server_list": [ { "server_id": "localhost", "server_ip": "localhost" } ] }, { "group_id": "1", "server_count": "1", "server_list": [ { "server_id": "localhost", "server_ip": "localhost", "device": [ { "device_id": "4", "device_ip": "10.**.**.22", "rank_id": "0" }, { "device_id": "5", "device_ip": "10.**.**.23", "rank_id": "1" } ] } ] }, { "group_id": "2", "server_count": "1", "server_list": [ { "server_id": "localhost", "server_ip": "localhost", "device": [ { "device_id": "6", "device_ip": "29.**.**.56", "rank_id": "0" }, { "device_id": "7", "device_ip": "29.**.**.72", "rank_id": "1" } ] } ] } ] } ``` local_rank_table.json格式说明每个全量/增量实例都需要local_rank_table.json。下面以某一个增量实例为例，需要和global_rank_table.json中的增量信息完全对应，group_id为0。 ``` { "version": "1.0", "status": "completed", "group_id": "0", "server_count": "1", "server_list": [ { "server_id": "localhost", "server_ip": "localhost", "device": [ { "device_id": "6", "device_ip": "29.**.**.56", "rank_id": "0" }, { "device_id": "7", "device_ip": "29.**.**.72", "rank_id": "1" } ] } ] } ```

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step6 启动全量推理实例

Step6 启动全量推理实例以下介绍如何启动全量推理实例。启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示，启动成功会有对应的docker id生成，并且不会报错。 docker run -itd \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /etc/ascend_install.info:/etc/ascend_install.info \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v ${dir}:${container_work_dir} \ --net=host \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明： --device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了2张卡davinci4、davinci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID，即第四步中生成的新镜像id，在宿主机上可通过docker images查询得到。进入容器。 docker exec -it -u ma-user ${container-name} /bin/bash 启动全量推理实例，命令如下。 export GLOBAL_RANK_TABLE_FILE_PATH=global_ranktable_10.**.**.18.json export RANK_TABLE_FILE_PATH=local_rank_table_10.**.**.18_45.json export NODE_PORTS=8088,8089 export USE_OPENAI=1 sh AscendCloud-LLM/llm_tools/PD_separate/start_servers.sh \ --model=${model} \ --tensor-parallel-size=2 \ --max-model-len=4096 \ --max-num-seqs=256 \ --max-num-batched-tokens=4096 \ --host=0.0.0.0 \ --port=8088 \ --served-model-name ${served-model-name} 其中环境变量说明如下： GLOBAL_RANK_TABLE_FILE_PATH：global rank_table的路径，必选。不同实例类型的global rank_table均一致。 RANK_TABLE_FILE_PATH：local rank_table的路径，必选。当实例类型为全量推理实例或者增量推理实例，local rank_table配置local_ranktable_xx_yy.json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(`--port`)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用`,`分隔开作为该环境变量的输入。 USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量 --max-model-len：模型能处理的请求输入+输出的token长度 --max-num-batched-tokens：最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192 --tensor-parallel-size：模型并行数量 --served-model-name：openai服务的model入参名称，仅在环境变量`USE_OPENAI=1`时候生效。 --quantization：如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。参数定义和使用方式与vLLM0.5.0版本一致，此处介绍关键参数。详细参数解释请参见https://github.com/vllm-project/vllm/blob/main/vllm/engine/arg_utils.py。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step7 启动增量推理实例

Step7 启动增量推理实例启动增量推理容器启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示，启动成功会有对应的docker id生成，并且不会报错。 docker run -itd \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /etc/ascend_install.info:/etc/ascend_install.info \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v ${dir}:${container_work_dir} \ --net=host \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明： --device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了2张卡davinci6、davinci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID，即第四步中生成的新镜像id，在宿主机上可通过docker images查询得到。进入容器 docker exec -it -u ma-user ${container-name} /bin/bash 启动增量推理实例，命令如下。 export GLOBAL_RANK_TABLE_FILE_PATH=global_ranktable_10.**.**.18.json export RANK_TABLE_FILE_PATH=local_rank_table_10.**.**.18_67.json export NODE_PORTS=8088,8089 export USE_OPENAI=1 sh AscendCloud-LLM/llm_tools/PD_separate/start_servers.sh \ --model=${model} \ --tensor-parallel-size=2 \ --max-model-len=4096 \ --max-num-seqs=256 \ --max-num-batched-tokens=4096 \ --host=0.0.0.0 \ --port=8089 \ --served-model-name ${served-model-name} 其中环境变量说明如下： GLOBAL_RANK_TABLE_FILE_PATH：global rank_table的路径，必选。不同实例类型的global rank_table均一致。 RANK_TABLE_FILE_PATH：local rank_table的路径，必选。当实例类型为全量推理实例或者增量推理实例，local rank_table配置local_ranktable_xx_yy.json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量/增量推理实例启动的--port参数相关，--port表示服务部署的端口。每个全量/增量推理实例基于配置的端口号(--port)启动服务，并按照global rank_table中的全量实例、增量实例的顺序，对全量推理实例、增量推理实例启动的端口号进行排序，端口之间用,（英文逗号）分隔开作为该环境变量的输入。 USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP地址 --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量 --max-model-len：模型能处理的请求输入+输出的token长度 --max-num-batched-tokens：最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192 --tensor-parallel-size：模型并行数量 --served-model-name：openai服务的model入参名称，仅在环境变量`USE_OPENAI=1`时候生效。 --quantization：如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step4 制作推理镜像

Step4 制作推理镜像解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip，并执行build_image.sh脚本制作推理镜像。安装过程需要连接互联网git clone，请确保机器环境可以访问公网。 unzip AscendCloud-*.zip -d ./AscendCloud && unzip ./AscendCloud/AscendCloud-OPP-*.zip -d ./AscendCloud/AscendCloud-OPP && unzip ./AscendCloud/AscendCloud-LLM-*.zip -d ./AscendCloud/AscendCloud-LLM && cd ./AscendCloud/AscendCloud-LLM/llm_inference/ascend_vllm/ && sh build_image.sh --base-image=${base_image} --image-name=${image_name} 参数说明： ${base_image}为基础镜像地址。 ${image_name}为推理镜像名称，可自行指定。运行完后，会生成推理所需镜像。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:什么是分离部署

什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。 Decode阶段（增量推理）将请求的前1个token传入大模型，从显存读取前文产生的KVCache再进行计算，属于访存密集型。分离部署场景下，全量推理和增量推理在不同的容器上进行，用于提高资源利用效率。分离部署的实例类型启动分为以下三个阶段： Step6 启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。 Step7 启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。 Step8 启动scheduler实例：可为CPU实例，用于启动api-server服务，负责接收推理请求，向全量或增量推理实例分发请求，收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step3 上传代码包和权重文件

Step3 上传代码包和权重文件上传安装依赖软件推理代码AscendCloud-LLM-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip到主机中，包获取路径请参见表2。将权重文件上传到Server机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见表3。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下： df -h

AI开发平台MODELARTS
AI开发平台MODELARTS-分离部署推理服务:Step1 检查环境

Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数，用来确认对应卡数已经挂载 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS
AI开发平台MODELARTS-部署推理服务:Step6 启动推理服务

Step6 启动推理服务配置需要使用的NPU卡编号。例如：实际使用的是第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVI CES =0 如果启动服务需要使用多张卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。配置PYTHONPATH。 export PYTHONPATH=$PYTHONPATH:${vllm_path} ${vllm_path} 填写ascend_vllm文件夹绝对路径。高阶配置（可选）。词表切分。在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量： export USE_VOCAB_PARALLEL=1 #打开词表切分开关 unset USE_VOCAB_PARALLEL #关闭词表切分开关配置后重启服务生效。 Matmul_all_reduce融合算子。使用Matmul_all_reduce融合算子能提升全量推理性能；该算子要求驱动和固件版本为Ascend HDK 24.1.RC1.B011及以上，默认不开启。如需开启，配置以下环境变量： export USE_MM_ALL_REDUCE_OP=1 #打开Matmul_all_reduce融合算子 unset USE_MM_ALL_REDUCE_OP #关闭Matmul_all_reduce融合算子配置后重启服务生效。查看详细日志。查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量： export DETAIL_TIME_ LOG =1 #打开打印详细日志 export RAY_DEDUP_LOGS=0 #打开打印详细日志 unset DETAIL_TIME_LOG #关闭打印详细日志配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart.html#offline-batched-inference。通过vLLM服务API接口启动服务在ascend_vllm目录下通过vLLM服务API接口启动服务，具体操作命令如下，API Server的命令相关参数说明如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.api_server --model ${container_model_path} \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 通过OpenAI服务API接口启动服务在ascend_vllm目录下通OpenAI服务API接口启动服务，具体操作命令如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.openai.api_server --model ${container_model_path} \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 具体参数说明如下： --model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。即Step3 上传代码包和权重文件上传的HuggingFace权重文件存放目录。如果使用的是训练后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值，否则推理预测会报错。config.json存在模型对应的路径下，例如：${container_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。 --max-num-batched-tokens：prefill阶段，最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。 --dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。 --tensor-parallel-size：模型并行数。取值需要和启动的NPU卡数保持一致，可以参考1。此处举例为1，表示使用单卡启动服务。 --block-size：PagedAttention的block大小，推荐设置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。服务启动后，会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started server process [2878]INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

AI开发平台MODELARTS 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
AI开发平台MODELARTS-部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0.3.2）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9，qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。序号模型名称 4*64GB 8*32GB 1 qwen1.5-72b 24576 8192 2 qwen-72b 24576 8192 3 llama3-70b 32768 8192 4 llama2-70b 98304 32768 6 llama-65b 24576 8192 序号模型名称 2*64GB 4*32GB 1 qwen1.5-32b 65536 24576 序号模型名称 1*64GB 1*32GB 1 qwen1.5-7b 49152 16384 2 qwen-7b 49152 16384 3 llama3-8b 98304 32768 4 llama2-7b 126976 16384 5 chatglm3-6b 126976 65536 6 chatglm2-6b 126976 65536 序号模型名称 1*64GB 2*32GB 1 qwen1.5-14b 24576 24576 2 qwen-14b 24576 24576 3 llama2-13b 24576 24576 说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

AI开发平台MODELARTS 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
AI开发平台MODELARTS-部署推理服务:Step5 进入容器安装推理依赖软件

Step5 进入容器安装推理依赖软件通过容器名称进入容器中。默认使用ma-user用户执行后续命令。 docker exec -it ${container_name} bash 上传代码和权重到宿主机时使用的是root用户，此处需要执行如下命令统一文件属主为ma-user用户。 #统一文件属主为ma-user用户 sudo chown -R ma-user:ma-group ${container_work_dir} # ${container_work_dir}:/home/ma-user/ws 容器内挂载的目录 #例如：sudo chown -R ma-user:ma-group /home/ma-user/ws 解压算子包并将相应算子安装到环境中。 unzip AscendCloud-OPP-*.zip pip install ascend_cloud_ops-1.0.0-py3-none-any.whl pip install cann_ops-1.0.0-py3-none-any.whl 解压软件推理代码并安装依赖包。 unzip AscendCloud-3rdLLM-*.zip cd llm_inference pip install -r requirements.txt 运行推理构建脚本build.sh文件，会自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference bash build.sh 运行完后，在当前目录下会生成ascend_vllm文件夹，即为昇腾适配后的vLLM代码。

AI开发平台MODELARTS 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
AI开发平台MODELARTS-部署推理服务:Step1 检查环境

Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
AI开发平台MODELARTS-部署推理服务:Step4 启动容器镜像

Step4 启动容器镜像启动容器镜像前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /etc/ascend_install.info:/etc/ascend_install.info \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v ${dir}:${container_work_dir} \ --net=host \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明： --device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了8张卡davinci0~davinci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID，在宿主机上可通过docker images查询得到。

AI开发平台MODELARTS 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
AI开发平台MODELARTS-启动推理服务（大语言模型）:离线推理

离线推理编辑一个python脚本，脚本内容如下，运行该脚本使用ascend-vllm进行模型离线推理。 from vllm import LLM, SamplingParams def main(): prompts = [ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is", ] sampling_params = SamplingParams(temperature=0.8, top_p=0.95) model_path = "/path/to/model" llm = LLM(model=model_path, tensor_parallel_size=1, max_model_len=8192) outputs = llm.generate(prompts, sampling_params) # Print the outputs. for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") if __name__=="__main__": main()

AI开发平台MODELARTS 启动推理服务
AI开发平台MODELARTS-在推理生产环境中部署推理服务:Step4 调用在线服务

Step4 调用在线服务进入在线服务详情页面，选择“预测”。若以vllm接口启动服务，设置请求路径：“/generate”，输入预测代码“{"prompt": "你好", "temperature":0, "max_tokens":20}”，单击“预测”即可看到预测结果。图4 预测-vllm 若以openai接口启动服务，设置请求路径：“/v1/completions”，输入预测代码“{"prompt": "你是谁","model": "${model_path}","max_tokens": 50,"temperature":0}”，单击“预测”即可看到预测结果。图5 预测-openai 在线服务的更多内容介绍请参见文档查看服务详情。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
AI开发平台MODELARTS-在推理生产环境中部署推理服务:Step1 准备模型文件和权重文件

Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见表1。若需要部署量化模型，请参考推理模型量化在Notebook中进行权重转换，并将转换后的权重上传至OBS中。权重文件夹不要以"model"命名，若以"model"命名会导致后续创建AI应用报错。推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key.pem，需自行生成。生成方式请参见•通过openssl创建SSLpem证书。图1 准备模型文件和权重文件创建推理脚本文件run_vllm.sh run_vllm.sh脚本示例如下。通过vLLM服务API接口启动服务 source /home/ma-user/.bashrc export ASCEND_RT_VISIBLE_DEVICES=${ASCEND_RT_VISIBLE_DEVICES} python -m vllm.entrypoints.api_server --model ${model_path} \ --ssl-keyfile="/home/mind/model/key.pem" \ --ssl-certfile="/home/mind/model/cert.pem" \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=0.0.0.0 \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 通过OpenAI服务API接口启动服务 source /home/ma-user/.bashrc export ASCEND_RT_VISIBLE_DEVICES=${ASCEND_RT_VISIBLE_DEVICES} python -m vllm.entrypoints.openai.api_server --model ${model_path} \ --ssl-keyfile="/home/mind/model/key.pem" \ --ssl-certfile="/home/mind/model/cert.pem" \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=0.0.0.0 \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 参数说明： ${ASCEND_RT_VISIBLE_DEVICES}：使用的NPU卡，单卡设为0即可，4卡可设为0,1,2,3。 ${model_path}：模型路径，填写为/home/mind/model/权重文件夹名称，如：/home/mind/model/chatglm3-6b。 /home/mind/model路径为推理平台固定路径，部署服务时会将Step1 准备模型文件和权重文件OBS路径下的文件传输至/home/mind/model路径下。 --tensor-parallel-size：并行卡数。 --hostname：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。 --dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。推理启动脚本必须名为run_vllm.sh，不可修改其他名称。 hostname和port也必须分别是0.0.0.0和8080不可更改。高阶参数说明： --enable-prefix-caching：如果prompt的公共前缀较长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model ${container_draft_model_path}：投机草稿模型地址，模型格式是HuggingFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。投机草稿模型为与--model入参同系列，但是权重参数远小于--model指定的模型。若未使用投机推理功能，则无需配置。 --num-speculative-tokens：投机推理小模型每次推理的token数。若未使用投机推理功能，则无需配置。参数--num-speculative-tokens需要和--speculative-model ${container_draft_model_path}同时使用。可在run_vllm.sh增加如下环境变量开启高阶配置： export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与下一次模型推理并行计算，从而减少总推理时延。该参数需要设置环境变量DEFER_DECODE=1才能生效。 export USE_VOCAB_PARALLEL=1 # 是否使用词表并行；默认值为1表示开启并行，取值为0表示关闭并行。对于词表较小的模型（如llama2系模型），关闭并行可以减少推理时延，对于词表较大的模型（如qwen系模型），开启并行可以减少显存占用，以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:步骤五：下载ComfyUI代码并安装依赖

步骤五：下载ComfyUI代码并安装依赖下载ComfyUI源码从github下载ComfyUI代码并切换到0.2.2分支。 cd ${container_work_dir} git clone -c http.sslVerify=false https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 切换到comfyui 0.2.2分支 git reset --hard 0c7c98a 下载flux模型权重下载模型权重文件，并将模型放到容器内自定义挂载的工作目录。下载Diffusion模型权重文件flux1-dev.safetensors，放到${container_work_dir}/ComfyUI/models/unet 目录下。其中， FLUX.1-dev下载链接：https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main 如下图所示：图1 flux1-dev.safetensors 下载vae权重，放到 ${container_work_dir}/ComfyUI/models/vae 目录下，FLUX.1-dev和FLUX.1-schnell使用相同的vae权重。下载链接： https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main 如下图所示：图2 vae权重下载text_encoder权重文件夹，放到${container_work_dir}/ComfyUI/models/clip 目录下。下载链接：https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main（此处建议使用SD3的text_encoder，相对更稳定，或使用flux的也可以。）图3 text_encoder权重文件替换Ascend_node 将${container_work_dir}/aigc_inference/torch_npu/comfyui/a82fae2/comfyui_ascend_node文件夹复制到${container_work_dir}/ComfyUI/custom_nodes/目录下。安装ascend_diffusers插件执行以下命令安装华为侧插件ascend_diffusers。 pip install -e ${container_work_dir}/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers 安装依赖运行以下命令进入工作目录，安装所需依赖包。 cd ${container_work_dir} pip install transformers==4.44.2 accelerate==0.34.2 sentencepiece==0.2.0 einops==0.8.0 torchsde==0.2.6 aiohttp==3.10.5 omegaconf==2.3.0 fastapi==0.115.0 uvicorn==0.30.6 spandrel==0.4.0 kornia==0.7.3 修改comfyui 源码修改 ${container_work_dir}/ComfyUI/comfy/ldm/flux/math.py 文件中rope()方法，把linespace的dtype改成torch.float32：下载workflow文件以workflow-flux1-dev-KnSeTKHjvuTd0RiUDSmW-datou-openart.ai.json为例：下载链接： https://openart.ai/workflows/datou/flux1-dev/KnSeTKHjvuTd0RiUDSmW 如下图所示，单击“Download”进行下载，下载的json文件放到windows机器上任意位置即可，后续在windows上启动服务后需要加载使用。图4 下载workflow文件

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:步骤六：ComfyUI 0.2.2 服务调用

步骤六：ComfyUI 0.2.2 服务调用获取容器IP地址在已启动的容器内，使用ifconfig命令获取容器IP，记为${container_ip_address}，本例中为172.17.0.7。若无效可使用ip addr，或者自行寻找其他方式获取到容器IP。图5 使用ifconfig命令获取容器IP 使用容器IP启动服务 cd ${container_work_dir}/ComfyUI python main.py --port ${port} --force-fp16 --listen ${container_ip_address} 参数说明： port：为启动镜像时映射port container_ip_address：为容器IP，如上图的172.17.0.7 默认不使用图模式若要使用图模式，需要配置环境变量 export GRAPH_MODE=1。如果使用了图模式，则首次推理时间较长，请耐心等待。浏览器启动浏览器启动时，需要使用宿主机IP，在浏览器中输入 http://${host_ip_address}:${port} ,例如：http://7.216.55.96:8585/ 参数说明： host_ip_address：为宿主机IP地址 port：为启动镜像时映射port 访问界面如下图。图6 访问界面加载workflow文件，选择workflow-flux1-dev-KnSeTKHjvuTd0RiUDSmW-datou-openart.ai.json。图7 加载workflow文件选择Diffusion model，单击选择flux1-dev.safetensors，如下图。图8 选择flux1-dev.safetensors 选择clip模型，clip_name1选择text_encoders/t5xxl_fp16.safetensors，clip_name2选择text_encoders/clip_l.safetensors, 如下图。图9 选择clip模型选择vae模型，如下图。图10 选择vae模型配置推理的参数，如width、height、batch_size等，本文以 688*1024，25步为例，如下图所示。图11 配置推理参数单击Queue Prompt加入推理队列进行推理，如下图图12 推理队列成功之后结果如下图所示。首次加载或切换模型推理时，需要加载模型并进行相关初始化工作，如果使用了图模式，则首次推理时间较长，请耐心等待。图13 推理成功

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:步骤七：Flux+Diffusers 0.30.2适配

步骤七：Flux+Diffusers 0.30.2适配本章节介绍Flux模型使用Diffusers 0.30.2框架的推理过程。使用官方提供的已经训练好的模型进行推理，输入prompt生成指定像素的图片。使用如下命令登录huggingface，并输入个人账号的token，用于自动下载flux权重。 huggingface-cli login 下载华为侧插件代码包AscendCloud-AIGC-6.3.912-xxx.zip文件，将该文件夹上传到宿主机上的工作目录下，例如 ${container_work_dir}/，并解压。安装ascend_diffusers插件 pip install -e ${container_work_dir}/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers 运行以下命令进入工作目录，安装所需依赖包。 cd ${container_work_dir} pip install diffusers==0.30.2 修改diffusers源码修改 /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/diffusers/models/transformers/transformer_flux.py 文件中rope()方法，把scale计算中的dtype改成torch.float32。图14 修改diffusers源码运行推理脚本。 sed -i 's/self.verify = True/self.verify = False/g' /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/requests/sessions.py python ${container_work_dir}/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers/examples/sd_inference_example.py --flux --model_id black-forest-labs/FLUX.1-dev --prompt 'a dog' --num_inference_steps 25 --width 688 --height 1024 参数说明如下： --width ：生成图片的宽 --height：生成图片的长 --num_inference_steps：推理步数 --dynamo: 使用图模式。如果使用该参数，则首次编译时间较长，请耐心等待。推理完成后，生成的图片image_1024x688.png保存在当前路径下，如下图所示。图15 推理结果

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:软件配套版本

软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:镜像版本

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表2 基础容器镜像地址配套软件版本镜像用途镜像地址配套获取方式 6.3.912版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527 cann_8.0.rc3 pytorch_2.1.0 驱动23.0.6 从SWR拉取不同软件版本对应的基础镜像地址不同，请严格按照软件版本和镜像配套关系获取基础镜像。

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:步骤二：启动镜像

步骤二：启动镜像启动容器镜像，推理只需要启动单卡，启动前可以根据实际需要增加修改参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录" export container_name="自定义容器名称" export image_name="镜像名称或ID" // 启动一个容器去运行镜像 docker run -itd --net=bridge \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=60g \ -p 8585:8585 \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} \ /bin/bash 参数说明： --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 --device=/dev/davinci0：挂载NPU设备，该推理示例中挂载了1张卡davinci0。 -p 8585:8585：映射端口号，用户可自定义未被占用的端口号。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。

AI开发平台MODELARTS
AI开发平台MODELARTS-FLUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912）:步骤一：检查环境

步骤一：检查环境请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS
AI开发平台MODELARTS-Ascend-vLLM介绍:Ascend-vLLM架构

Ascend-vLLM架构 Ascend-vLLM架构图如下所示。图1 Ascend-vLLM架构图算子：使用CANN基础算子和高性能融合算子，同时支持用户自定义算子，持续迭代优化，提高推理效率。模型：结构实现和社区一致，Huggingface模型开箱即用，同时可以快速适配新模型。调用：提供高性能算子下发和图模式两种方案，兼顾性能和灵活性。特性：服务调度、特性实现和社区一致，针对昇腾硬件做亲和替换和优化。接口：离线SDK、在线OpenAI Server和社区完全一致，无缝迁移。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）
AI开发平台MODELARTS-Ascend-vLLM介绍:Ascend-vLLM概述

Ascend-vLLM概述 vLLM是GPU平台上广受欢迎的大模型推理框架，因其高效的continuous batching和pageAttention功能而备受青睐。此外，vLLM还具备投机推理和自动前缀缓存等关键功能，使其在学术界和工业界都得到了广泛应用。 Ascend-vLLM是华为云针对NPU优化的推理框架，继承了vLLM的优点，并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷，为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务，特别是在需要高性能和高效率的场景中，如自然语言处理、图像生成和语音识别等。 Ascend-vLLM的主要特点易用性：Ascend-vLLM简化了在大模型上的部署和推理过程，使开发者可以更轻松地使用它。易开发性：提供了友好的开发和调试环境，便于模型的调整和优化。高性能：通过自研特性和针对NPU的优化，如PD分离、前后处理、sample等，实现了高效的推理性能。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）
AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9。表2 不同模型推理支持的max-model-len长度模型名 280T 313T 最小卡数最大序列(K) 最小卡数最大序列(K) llama-7b 1 16 1 32 llama-13b 2 16 1 16 llama-65b 8 16 4 16 llama2-7b 1 16 1 32 llama2-13b 2 16 1 16 llama2-70b 8 32 4 64 llama3-8b 1 32 1 128 llama3-70b 8 32 4 64 qwen-7b 1 8 1 32 qwen-14b 2 16 1 16 qwen-72b 8 8 4 16 qwen1.5-0.5b 1 128 1 256 qwen1.5-7b 1 8 1 32 qwen1.5-1.8b 1 64 1 128 qwen1.5-14b 2 16 1 16 qwen1.5-32b 4 32 2 64 qwen1.5-72b 8 8 4 16 qwen1.5-110b oom 8 128 qwen2-0.5b 1 128 1 256 qwen2-1.5b 1 64 1 128 qwen2-7b 1 32 1 64 qwen2-72b 8 32 4 64 chatglm2-6b 1 64 1 128 chatglm3-6b 1 64 1 128 glm-4-9b 1 32 1 128 baichuan-7b 1 16 1 32 baichuan-13b 2 4 1 4 baichuan2-7b 1 8 1 32 baichuan2-13b 2 4 1 4 yi-6b 1 64 1 128 yi-9b 1 32 1 64 yi-34b 4 32 2 64 deepseek-llm-7b 1 16 1 32 deepseek-coder-instruct-33b 4 32 2 64 deepseek-llm-67b 8 32 4 64 mistral-7b 1 32 1 128 mixtral-8x7b 4 8 2 32 gemma-2b 1 64 1 128 gemma-7b 1 8 1 32 说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step3 启动推理服务

Step3 启动推理服务配置需要使用的NPU卡为容器中的第几张卡。例如：实际使用的是容器中第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡，则按容器中的卡号依次编排。例如：实际使用的是容器中第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图2 查询结果配置环境变量。 export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与下一次模型推理并行计算，从而减少总推理时延。该参数需要设置环境变量DEFER_DECODE=1才能生效。 export USE_VOCAB_PARALLEL=1 # 是否使用词表并行；默认值为1表示开启并行，取值为0表示关闭并行。对于词表较小的模型（如llama2系模型），关闭并行可以减少推理时延，对于词表较大的模型（如qwen系模型），开启并行可以减少显存占用，以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart.html#offline-batched-inference。通过vLLM服务API接口启动服务在ascend_vllm目录下通过vLLM服务API接口启动服务，具体操作命令如下，API Server的命令相关参数说明如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.api_server --model ${model_path} \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 通过OpenAI服务API接口启动服务在ascend_vllm目录下通OpenAI服务API接口启动服务，具体操作命令如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.openai.api_server --model ${model_path} \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --dtype=float16 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code 具体参数说明如下： --model ${model_path}：模型地址，模型格式是HuggingFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。如果使用了量化功能，则使用推理模型量化章节转换后的权重。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值，否则推理预测会报错。config.json存在模型对应的路径下，例如：/home/ma-user/work/chatglm3-6b/config.json。 --max-num-batched-tokens：prefill阶段，最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。 --dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。 --tensor-parallel-size：模型并行数。取值需要和启动的NPU卡数保持一致，可以参考1。此处举例为1，表示使用单卡启动服务。 --block-size：PagedAttention的block大小，推荐设置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。 --distributed-executor-backend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。高阶参数说明： --enable-prefix-caching：如果prompt的公共前缀较长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model ${container_draft_model_path}：投机草稿模型地址，模型格式是HuggingFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。投机草稿模型为与--model入参同系列，但是权重参数远小于--model指定的模型。若未使用投机推理功能，则无需配置。 --num-speculative-tokens：投机推理小模型每次推理的token数。若未使用投机推理功能，则无需配置。参数--num-speculative-tokens需要和--speculative-model ${container_draft_model_path}同时使用。服务启动后，会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started server process [2878] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step2 准备权重文件

Step2 准备权重文件将OBS中的模型权重上传到Notebook的工作目录/home/ma-user/work/下。上传代码参考如下。 import moxing as mox obs_dir = "obs://${bucket_name}/${folder-name}" local_dir = "/home/ma-user/work/qwen-14b" mox.file.copy_parallel(obs_dir, local_dir) 实际操作如下图所示。图1 上传OBS文件到Notebook的代码示例

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
AI开发平台MODELARTS-部署推理服务:Step1 检查环境

Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数，用来确认对应卡数已经挂载 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！