检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
创建盘古工作空间步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”分页,单击“创建空间”。 填写空间名称、描述,单击“确认”,完成空间的创建。 图1 创建空间 单击创建好的空间,进入ModelArts Studio大模型开发平台。 如果用户具备多个空间的访问权限,可在页面左上角单击切换空间。
部署ABI Weblogic 12c中部署 Weblogic管理控制台访问地址:http://服务器IP:7001/console。在IE浏览器里键入该地址,进入Weblogic控制台登录页面,输入用户名和密码进行登录。 图1 部署1 登录成功后,就出现Weblogic的控制台管理界面,如下:
发布本地AI应用到AI Gallery 场景描述 AI Gallery自定义AI应用能力为您提供了一个自由灵活的AI应用创建方式,您可以基于AI Gallery上提供的基础能力,发挥您的创造力,通过自定义代码的形式,自由地构建出您需要的AI应用形态。 准备AI应用运行文件“app
在流程编辑页面添加流程工具 如果您需要了解每个流程工具的详细使用说明,请将鼠标悬浮在快捷菜单栏的“帮助”上,单击“工具栏说明”会弹出流程工具的使用说明。 流程工具分类介绍 表1 流程工具分类说明 分类 说明 工具 :激活抓手工具,用于拖动画布。 :激活套索工具,选择多个图形,也可以使用快捷键Shift选取。
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
创建并部署基线版本组件 创建并部署基线版本组件,用于关联到后续操作创建的基线泳道。此处需要分别创建并部署3个基线版本组件:unit-controller、unit-consumer和unit-provider。 部署组件 登录ServiceStage控制台。 单击“应用管理”,进入应用列表。
绑定目标服务到应用网关 为应用网关绑定目标服务,以便网关获取组件微服务地址。 操作步骤 为准备资源时创建的应用网关创建服务来源,请参考创建服务来源。 服务来源参数请参考下表进行设置。 参数名称 参数说明 来源类型 目标服务的来源,选择“CSE ServiceComb引擎”。 来源名称
创建基线泳道并关联组件 泳道用于为相同版本组件定义一套隔离环境。只有满足了流控路由规则的请求流量才会路由到对应泳道里的打标签组件。基线泳道包括应用中所有组件的基线版本。当微服务调用链中不存在某个组件的时候,会默认访问基线泳道中的组件。 操作步骤 登录ServiceStage控制台。
全链路流量控制概述 仅“华东-上海一”、“亚太-新加坡”区域支持全链路流量控制功能。 背景信息 在一个存在多个微服务组件的应用体系中,对其中一个微服务组件进行版本升级发布时,会涉及到其他微服务组件版本的变动升级。所以要求在灰度验证时能够使得灰度流量同时经过涉及到的所有微服务组件灰
some certificate not in /opt/huawei/openresty/nginx/conf/ssl 问题现象 SLB部署失败,日志详细信息提示如下: "some certificate not in /opt/huawei/openresty/nginx/conf/ssl"
Agent问答的时候报错“很抱歉,我的系统似乎遇到了一些故障问题,暂时无法为您提供服务” 问题现象 图1 Agent报错 解决方法 检查创建Agent时选择的模型是否为模型服务商API,使用模型服务商API时,需要配置模型服务鉴权,新开的租户没有配置模型鉴权,具体操作请参见如何对模型供应商提供的模型服务设置鉴权。
分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是分离部署 大模型推理是自回归的过程,有以下两阶段: Prefill阶段(全量推理) 将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16
推理性能测试 语言模型推理性能测试 多模态模型推理性能测试 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.911)
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global