检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。
示例: nerdctl --namespace k8s.io push swr.cn-southwest-2.myhuaweicloud.com/GPOUP_NAME/pytorch_2_3_ascend:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象
示例: nerdctl --namespace k8s.io push swr.cn-southwest-2.myhuaweicloud.com/GPOUP_NAME/pytorch_2_1_ascend:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。
示例: nerdctl --namespace k8s.io push swr.cn-southwest-2.myhuaweicloud.com/GPOUP_NAME/pytorch_2_1_ascend:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象
示例: nerdctl --namespace k8s.io push swr.cn-southwest-2.myhuaweicloud.com/GPOUP_NAME/pytorch_2_1_ascend:20240606 步骤六 编写Config.yaml文件 k8s有两种方式来管理对象
--use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 服务启动后,会打印如下类似信息。
--use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。