检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE官网文档可参考云容器引擎。 BMS 裸金属服务器(Bare Metal Server)是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。
具体使用方式见vllm官网。
约束限制 推理部署使用的服务框架是vLLM(官网地址:https://github.com/vllm-project/vllm/tree/v0.3.2,版本:v0.3.2)。 仅支持FP16和BF16数据类型推理。
具体使用方式见vllm官网。
具体使用方式见vllm官网。
详细说明可以参考vLLM官网:https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step3 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。
print(resp.status_code) print(resp.text) 模型服务的API与vLLM相同,表1仅介绍关键参数,详细参数解释请参见vLLM官网Sampling Parameters。
首先考虑通过FP16的方式进行转换和执行,再通过精度诊断工具来进行分析,更进一步可以到华为云官网上提交工单处理。 模型转换失败时如何查看日志和定位原因? 在模型转换的过程,如果出现模型转换失败,可以参考以下步骤查看日志并定位原因: 设置DEBUG日志。
准备数据 登录coco数据集下载官网地址:https://cocodataset.org/#download 下载coco2017数据集的Train(18GB)、Val images(1GB)、Train/Val annotations(241MB),分别解压后并放入coco文件夹中
关于Dockerfile的具体编写方法,请参考官网。 查询基础镜像(第三方镜像可跳过此步骤) ModelArts提供的公共镜像,请参考Notebook专属预置镜像列表,根据预置镜像的引擎类型在对应的章节查看镜像URL。 连接容器镜像服务。 登录容器镜像服务控制台。
详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。
具体使用方式见vllm官网。
您可以使用开源支持的所有功能,详细操作指导可参见JupyterLab官网文档。 图1 JupyterLab主页 不同AI引擎的Notebook,打开后Launcher页面呈现的Notebook和Console内核及版本均不同,图1仅作为示例,请以实际控制台为准。
详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。
git clone -c http.sslVerify=false https://github.com/comfyanonymous/ComfyUI.git 此处根据ComfyUI官网描述进行配置。 下载SD模型并安装。
mkdir t5-v1_1-xxl 然后进入官网地址 https://huggingface.co/DeepFloyd/t5-v1_1-xxl/tree/main,手动下载如图4所示文件,并放到 /home/ma-user/ascendcloud-aigc-algorithm-open_sora
git clone -c http.sslVerify=false https://github.com/comfyanonymous/ComfyUI.git 此处根据ComfyUI官网描述进行配置。 下载SD模型并安装。
docker exec -it ${container_name} bash Step4 下载原始模型包 从HuggingFace官网下载moondream2模型包到本地,下载地址:https://huggingface.co/vikhyatk/moondream2/tree/2024
详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。
相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置ma-user用户、导入conda环境、配置Notebook依赖。 推荐使用Dockerfile的方式构建镜像。