检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。
准备Notebook 本案例在Notebook上部署推理服务进行调试,因此需要创建Notebook。 部署推理服务 在Notebook调试环境中部署推理服务 介绍如何在Notebook中配置NPU环境,部署并启动推理服务,完成精度测试和性能测试。
本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。
准备Notebook 本案例在Notebook上部署推理服务进行调试,因此需要创建Notebook。 部署推理服务 在Notebook调试环境中部署推理服务 介绍如何在Notebook中配置NPU环境,部署并启动推理服务,完成精度测试和性能测试。
本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。
为了方便AI开发者在使用Notebook时访问外部资源,ModelArts提供了一个免费的共享网络代理服务。借助这个代理,开发者可以更加便捷地下载所需的各类资源,助力开发工作的顺利进行。 由于该网络代理免费且共享,其性能会受到实时访问量大小的显著影响。
指定节点计费模式。用户增加节点数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动续费功能。例如用户可以在包周期的资源池中创建按需的节点。若用户不指定该参数,则新扩容的节点计费模式和资源池保持一致。
--host ${docker_ip}:服务部署的IP地址,${docker_ip}替换为宿主机实际的IP地址。 --port:推理服务端口。
表4 CreateNodePoolAnnotations 参数 是否必选 参数类型 描述 os.modelarts/billing.mode 否 String 计费模式,可选值如下: 0:按需计费 1:包周期计费 os.modelarts/period.num 否 String 包周期订购周期
图1 部署模型的流程 在线推理服务,可以实现高并发,低延时,弹性伸缩,并且支持多模型灰度发布、A/B测试。 支持各种部署场景,既能部署为云端的在线推理服务和批量推理任务,也能部署到端,边等各种设备。 一键部署,可以直接推送部署到边缘设备中,选择智能边缘节点,推送模型。
自定义镜像需上传至容器镜像服务(SWR)才能在ModelArts上用于训练。 父主题: 制作自定义镜像用于训练模型
service_id 是 String 服务ID。 api_id 是 String API编号。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 String 分页展示时,一页展示多少项。默认为1000。
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。
在控制台页面操作删除专属资源池后,后端服务需要进行资源实例释放。在资源实例释放过程中,用户依然可以查询到资源池。如果需要创建专属资源池,建议等待5min后再创建,且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试,建议用例用随机串替代。
步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境 保存并共享虚拟环境 前提条件 创建一个Notebook,“资源类型”选择“专属资源池”,“存储配置”选择“SFS弹性文件服务器”,打开terminal。
--num-scheduler-steps: 服务启动如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false,则需配置此参数与服务启动时--num-scheduler-steps一致。
启动smoothQuant量化服务。 参考部署推理服务,使用量化后权重部署AWQ量化服务。 注:Step3 创建服务启动脚本启动脚本中,服务启动命令需添加如下命令。
ModelArts Lite DevServer 开通裸金属服务器资源请见DevServer资源开通,在裸金属服务器上搭建迁移环境请见裸金属服务器环境配置指导。 父主题: GPU推理业务迁移至昇腾的通用指导
其中访问方式中,可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。 父主题: 准备工作
其中访问方式中,可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。 父主题: 准备工作