检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
供轻量级的虚拟化,以便隔离进程和资源。尽管容器技术已经出现很久,却是随着Docker的出现而变得广为人知。Docker是第一个使容器能在不同机器之间移植的系统。它不仅简化了打包应用的流程,也简化了打包应用的库和依赖,甚至整个操作系统的文件系统能被打包成一个简单的可移植的包,这个包
自定义一个易于分辨的AI应用中文名称。 字符长度在1到30之间。 许可证 否 选择AI应用遵循的许可证。 计算规格选择 是 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不
ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite Server。
0版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 专属资源池驱动版本要求23.0.6。 适配的CANN版本是cann_8.0.rc3。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。
0版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 专属资源池驱动版本要求23.0.6。 适配的CANN版本是cann_8.0.rc3。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。
3版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 专属资源池驱动版本要求23.0.6。 适配的CANN版本是cann_8.0.rc3。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。
Prefill(Splitfuse)特性的目的是将长prompt request分解成更小的块,并在多个forward step中进行调度,只有最后一块的forward完成后才开始这个prompt request的生成。将短prompt request组合以精确填充step的空隙,每个step的计算量基本相等,达到所有请求平均延迟更稳定的目的。
如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
OS arm 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-CV-6.3.910-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路
本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SD3.5模型的推理过程。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 driver 23
cann_8.0.rc2 不同软件版本对应的基础镜像地址不同,请严格按照软件版本和镜像配套关系获取基础镜像。 支持的模型列表和权重文件 本方案支持vLLM的v0.3.2版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 支持vLLM
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化
0版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 专属资源池驱动版本要求23.0.6。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称
推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持的模型列表、对应的开源权重获取地址如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化
本方案支持的软件配套版本和依赖包获取地址如表2所示。 表2 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。
如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
本文档主要介绍如何在ModelArts Lite的Cluster环境中部署Stable Diffusion的WebUI套件,使用NPU卡进行推理。 方案概览 本方案介绍了在ModelArts的Lite Cluster上使用昇腾计算资源部署Stable Diffusion WebUI套件用于推理的详细过程。完成本