检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更新AI应用版本时,边缘服务预测功能不可用? 针对某一部署的边缘服务,如果在更新AI应用版本时,即修改边缘服务,更新其使用的AI应用版本,导致此边缘服务的预测功能暂不可用。 针对此场景,由于更新了AI应用版本,边缘服务将重新部署,处于部署中的边缘服务,则无法使用预测功能。即更新AI
使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误 在VS Code环境中,执行Ctrl+Shift+P。 搜Python: Select Interpreter,选择对应的Python环境。 单击页面上方的“Terminal > New Terminal”,此时打开的命令行界面即为远端容器环境命令行
系统管理员的工厂模型设置 工厂模型设置概述 维护公司注册 维护工厂建模 管理工厂员工 父主题: MBM Space使用示例
在SLB中创建资源 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 在SLB中创建资源 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“资源管理 > 资源”。 单击
配置微服务治理 微服务部署完后,您可以根据微服务的运行情况进行微服务的治理。 治理策略说明 支持负载均衡、限流、故障隔离、容错、降级、熔断、错误注入、超时时间和OLC流控等策略的配置。各治理项说明如表1所示。 表1 治理策略说明 名称 说明 负载均衡 微服务一般会部署多个实例,负载均衡控制微服务消费者访问微服务提供者的多个实例的策略
在部署服务创建部署模板 支持对虚拟机变更步骤进行编排,通过配置变更任务,使用模板完成虚拟机部署。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建部署模板 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 部署服务”。
创建过滤器在告警接入时过滤告警 通过创建过滤器,在告警接入时过滤指定告警,过滤后,告警会进入Bypass的数据库,不会进入告警处理模块,即不会显示在告警列表。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建过滤器过滤告警 进入AppStage运维中心
查看已上架的EAP动作 动作是部署服务当前对各模块操作的封装,如部署任务,执行作业,确认告警等。可以查看当前EAP已经上架了哪些动作,包含哪些能力。 查看已上架的EAP动作 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight
创建运维事件通知组 通知组通常包括运维代表、开发代表、相关领域专家等。 通知组在运维事件发送通知、WarRoom基于通知组方式发送通知时使用。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建通知组 进入AppStage运维中心。 在顶部导航栏选择服务
配置SLB节点信息 为SLB实例配置节点信息。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新增节点 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“实例管理”
查看及导出微服务接口契约 微服务场景中的契约是指服务契约,它是基于OpenAPI规范的微服务接口约束规范,是服务端和消费端对于接口的定义。本文介绍如何查看以及导出微服务的接口契约。 查看接口契约 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现
在WiseDBA中永久删除Schema 永久删除是指从WiseDBA中彻底删除Schema同时在业务数据库中进行销毁,销毁后无法恢复。 约束与限制 GaussDB和RDS for PostgreSQL数据库不支持此功能。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限
将监听配置同步到SLB节点 监听配置完成后,配置数据只是保存到数据库中,如需将监听服务应用到SLB,还需要执行同步操作。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 将监听配置同步到SLB 进入AppStage运维中心。 在顶部导航栏选择服务
升级弹性云服务器主机已安装的OpsAgent 可以在“弹性云服务器”页面升级主机已安装的OpsAgent。 前提条件 已获取基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 升级OpsAgent 进入AppStage运维中心。 单击,选择“运维 > 主机管理服务(VMS
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是分离部署 大模型推理是自回归的过程,有以下两阶段: Prefill阶段(全量推理) 将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ