检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
USE_OPENAI:仅在服务入口实例生效,用于配置api-server服务是否使用openai服务,默认为1。当配置为1时,启动服务为openai服务;当配置为0时,启动服务为vllm服务。 其中常见的参数如下: --host:服务部署的IP --port:服务部署的端口,注意如果不
推理服务精度评测 本章节介绍了2种精度测评方式,分别为Lm-eval工具和MME工具。 lm-eval工具适用于语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等,该工具为离线测评,不需要启动推理服务。
推理服务精度评测 本章节介绍了2种精度测评方式,分别为Lm-eval工具和MME工具。 lm-eval工具适用于语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等,该工具为离线测评,不需要启动推理服务。
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
修改在线服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果
用户Token。通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 service_name String 服务名称。 service_id String 服务ID。 logs
昇腾云服务6.5.901版本说明(推荐) 本文档主要介绍昇腾云服务6.5.901版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 Snt9B PyTorch2.1.0: swr.cn-southwest-2
查看批量服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
Standard推理服务访问公网方案 本章节提供了推理服务访问公网的方法。 应用场景 推理服务访问公网地址的场景,如: 输入图片,先进行公网OCR服务调用,然后进行NLP处理; 进行公网文件下载,然后进行分析; 分析结果回调给公网服务终端。 方案设计 从推理服务的算法实例内部,访问公网服务地址的方案。如下图所示:
小模型权重文件名 如果需要增加模型量化功能,启动推理服务前,先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理 启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考:https://docs
ModelArts在线服务和边缘服务有什么区别? 在线服务 将模型部署为一个Web服务,您可以通过管理控制台或者API接口访问在线服务。 边缘服务 云端服务是集中化的离终端设备较远,对于实时性要求高的计算需求,把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端
Events协议的方式访问在线服务 背景说明 Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的
修改批量服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
在MaaS体验模型服务 在ModelArts Studio大模型即服务平台,运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。 前提条件 使用预置服务:在“模型推理”页面的“预置服务”页签,已领取免费Token额度且额度未使用完毕,或者已开通付费服务。具体操作,请参见免费体验MaaS预置服务。
推理服务性能评测 语言模型推理性能测试 多模态模型推理性能测试 获取模型推理的Profiling数据 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.901)
使用CTS审计ModelArts服务 ModelArts支持云审计的关键操作 查看ModelArts相关审计日志
更新模型服务的单个属性 功能介绍 更新模型服务的单个属性,目前只支持instance_count(更新模型服务实例数量),仅运行中、告警、异常状态下的在线服务可以执行该操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生