检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。 本章节介绍如何在Notebook使用SmoothQuant
使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:per-group Step1 模型量化 可以在Huggingface
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
非分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好Server环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网
GaussDB(for MySQL) CPU使用率高的解决方法 使用云数据库GaussDB(for MySQL)时,如果您的CPU使用率很高或接近100%,会导致数据读写处理缓慢、无法获取连接、出现报错等,从而影响业务正常运行。 解决方案 通过查看慢SQL日志来确定是否存在运行缓慢的
怎么解决查询运行缓慢的问题 通过查看慢SQL日志来确定是否存在运行缓慢的SQL查询以及各个查询的性能特征(如果有),从而定位查询运行缓慢的原因。 查询RDS for MySQL日志,请参见查询慢日志。 查询RDS for PostgreSQL日志,请参见查看错误日志。 云数据库 RDS
身份认证与访问 UCS支持IAM与Kubernetes的角色访问控制(RBAC)的精细的权限管理,实现UCS服务资源权限、集群中Kubernetes资源权限两种维度的权限控制,这两种权限针对的是不同类型的资源,在授权机制上也存在一些差异,具体如下: UCS服务资源权限:是基于IAM
调用API报“No backend available” 检查后端服务是否可以访问,如果不能访问,请修改后端服务。 检查后端服务对应的ECS安全组配置,查看是否已开放您需要的端口。 检查后端服务地址是否使用公网IP地址,如果使用,需要在APIG控制台的“实例管理 > 查看控制台 >
节点池管理最佳实践 本文将为您介绍与节点池管理相关的最佳实践,包括节点池创建、管理和弹性伸缩等方面,从而更好地满足业务需求。 场景分类 相关最佳实践 创建节点池相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小
影响大对象迁移速度的关键因素有哪些? 在迁移大对象的过程中,迁移集群的以下几个关键因素可能会影响迁移速度: 网络带宽限制:网络带宽不足,可能成为迁移速度的主要制约因素。 建议:升级带宽或选择低峰时段进行迁移。 迁移集群规格:如果迁移集群的规格小于推荐规格(8U16G)可能会因处理能力不足
规格评估 规格评估是根据源端资源规格、性能和应用场景以及特定的成本、可用性、性能、安全合规等需求,为您推荐最合适的华为云对应资源规格,通过规格评估确定迁移目的端。 当前支持规格评估的资源类型为:主机、数据库、对象存储、容器、中间件。 使用须知 已绑定目的端的主机资源,无需进行规格推荐
HDFS基本原理 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作
DCS使用规范 业务使用规范 原则 原则说明 备注 就近部署业务,避免时延过大 如果部署位置过远(非同一个region)或者时延较大(例如业务服务器与Redis实例通过公网连接),网络延迟将极大影响读写性能。 如果对于时延较为敏感,请避免创建跨AZ Redis实例。 冷热数据区分
修改Kafka Topic副本数 创建Kafka实例Topic成功之后,您可以根据业务需要修改Topic的副本数。 通过修改分区平衡可以实现修改副本数,Kafka控制台提供两种修改副本数的方法:使用自动平衡修改副本数和使用手动平衡修改副本数。 约束与限制 单机实例不支持修改副本数。
列举资源记录器收集的全部资源 功能介绍 查询当前用户资源记录器收集的全部资源,需要当前用户有rms:resources:list权限。 调用方法 请参见如何调用API。 URI GET /v1/resource-manager/domains/{domain_id}/tracked-resources
执行训练任务 步骤一:上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json
为IAM子账号配置命名空间级别的权限 应用场景 在容器化环境中,不同团队和部门对资源的访问需求不尽相同。如果权限设置过于宽泛,可能会导致环境交叉占用、误操作和资源竞争等问题。为了解决这些问题,实现细粒度的权限控制尤为重要。 CCE权限管理是在统一身份认证服务(IAM)与Kubernetes
什么是分区? 分区(Partition)是DIS数据通道的基本吞吐量单位。创建通道时,将指定所需的分区数量。 普通通道单分区容量:最高发送速度可达1MB/秒或1000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 2MB/秒,单次请求的记录总大小不能超过1MB(不包含