检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备代码 本教程中用到的训练、推理代码如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是分离部署 大模型推理是自回归的过程,有以下两阶段: Prefill阶段(全量推理) 将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
快速入门──创建采集监控任务场景 该模块帮助了解采控中心的主要工作流程,快速开始指标数据的采集工作。 入门概述 采控平台满足用户对不同指标、不同维度的数据采集需求,支持通过创建的采集监控任务,对系统的日志、中间件、指标信息、系统信息等进行采集。 配置步骤速览 添加Agent到系统中
根据配置文件历史ID删除配置文件历史 功能介绍 此API用于通过配置文件历史ID删除配置文件历史。 URI DELETE /v3/{project_id}/cas/configs/{config_id}/histories/{config_history_id} 表1 路径参数 参数
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
配置AP业务 配置接口 配置AP上行口,用于连接接入交换机。在华为乾坤云平台上无需配置,采用默认配置即可。 配置员工SSID(PSK认证) 已成功创建员工无线子网“test-emp”,请根据实际情况调整SSID参数。 登录华为乾坤控制台。 在控制台首页地图上双击“test_hot
管理工单 服务对象 客户 场景描述 客户在自建平台创建华为云工单,自建平台将请求转到华为云售后服务团队。客户提交工单的时候,需要按照模板填写,可以引导客户提交有效信息。 客户在自建平台查询其提交的华为云工单列表或者查询其提交的某个华为云工单详情。 客户可以对提交的工单做一些操作,
设备服务调用 典型场景 设备Profile文件中定义了物联网平台可向设备下发的命令,第三方应用可调用此接口向设备下发命令,配置或修改设备的服务属性,以实现对设备的控制。 物联网平台不对设备命令进行缓存而是直接下发命令,设备不在线时命令下发失败。下发命令的具体格式需要第三方应用与设
云管理方案可以定制Portal页面吗? 支持用户定制Portal页面。云管理平台提供多种Portal页面模板样式,用户可基于模板自定义Portal页面。
站点和设备数据规划 各个站点的设备,需要先添加到云平台,管理员才能对设备进行配置和管理。 表1 站点规划 站点名称 设备类型 Hub1 AR Hub2 AR Site1 AR、LSW、云AP 表2 设备信息 所属站点 设备名称 设备型号 设备角色 设备ESN数据 备注 Hub1 Hub1_1
AX模式 样例 AX模式绑定接口 AX模式解绑接口 AX模式绑定信息修改接口 AX模式绑定信息查询接口 AX模式设置临时被叫接口 获取录音文件下载地址接口 呼叫事件通知接口 话单通知接口 短信通知接口 环境要求 基于Node.js 8.12.0版本,要求Node.js 7.0.0及以上版本。
设备服务调用 典型场景 设备Profile文件中定义了物联网平台可向设备下发的命令,第三方应用可调用此接口向设备下发命令,配置或修改设备的服务属性,以实现对设备的控制。 物联网平台不对设备命令进行缓存而是直接下发命令,设备不在线时命令下发失败。下发命令的具体格式需要第三方应用与设
NB设备命令状态变化通知 典型场景 第三方应用通过物联网平台创建设备命令时,如果设置了callbackurl回调地址,当命令状态变化时(执行失败,执行成功,超时,发送,已送达),平台会向第三方应用推送通知消息。 接口功能 支持物联网平台在命令状态发生变化时向第三方应用推送通知消息。
设备命令下发 接口说明 设备Profile文件中定义了物联网平台可向设备下发的命令,应用服务器可调用此接口向设备下发命令,配置或修改设备的服务属性,以实现对设备的控制。 物联网平台不对设备命令进行缓存而是直接下发命令,设备不在线时命令下发失败。下发命令的具体格式需要应用服务器与设
如何在华为云的云解析服务上进行DNS验证? DNS验证一般需要由您的域名管理人员进行相关操作。如果您是在华为云平台管理您的域名,并且您的域名在您的华为账号中,请参见本章节在华为云的云解析服务上进行DNS验证。 如果您是在其他域名管理平台(如万网、新网、DNSPod等)管理您的域名