云服务器内容精选

  • Step1 获取推理代码 根据下表链接下载“ascendcloud-llmframework_6.3.902_*.tar.gz”解压获得ascend-vllm代码包,将文件夹中的vllm-dev文件夹上传至OBS中预训练权重合并及转换或LoRA微调权重合并及转换输出的模型同级目录下。 表1 准备代码 代码包名称 代码说明 下载地址 ascendcloud-llmframework_6.3.902_*.tar.gz Ascend-vllm插件 获取路径:Support网站。 说明: 如果没有下载权限,请您联系所在企业的华为方技术支持购买资源。 创建推理脚本run-vllm.sh,脚本内容如下: source /home/ma-user/.bashrc export ASCEND_RT_VISIBLE_DEVI CES =${ASCEND_RT_VISIBLE_DEVICES} export PYTHONPATH=$PYTHONPATH:/home/mind/model/vllm-dev cd /home/mind/model/vllm-dev/ python /home/mind/model/vllm-dev/vllm/entrypoints/api_server.py --model="${model_path}" --ssl-keyfile="/home/mind/model/key.pem" --ssl-certfile="/home/mind/model/cert.pem" --tensor-parallel-size 1 --gpu-memory-utilization 0.95 --max-model-len=4096 --trust-remote-code --dtype="float16" --host=0.0.0.0 --port=8080 并将推理脚本上传至OBS中预训练权重合并及转换或LoRA微调权重合并及转换输出的模型同级目录下。 参数说明: ${ASCEND_RT_VISIBLE_DEVICES} 使用的NPU卡,单卡设为0即可,4卡可设为:0,1,2,3。 ${model_path} 模型路径,填写为'/home/mind/model/权重文件夹名称',如:'home/mind/model/llama2-13b-sft-hf'。 --tensor-parallel-size并行卡数。 --hostname服务部署的IP,使用本机IP 0.0.0.0。 --port服务部署的端口。 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。 hostname和port也必须分别是0.0.0.0和8080不可更改。 通过openssl创建ssl pem证书,并上传至OBS桶。 以预训练权重合并及转换为例,在转换后的模型目录“obs://standard-llama2-13b/code/outputs/job-name”上传上述文件后,结果如下: 图1 上传ssl pem证书