搜索_华为云

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
GaussDB(for MySQL) CPU使用率高的解决方法 - 云数据库 TaurusDB

GaussDB(for MySQL) CPU使用率高的解决方法使用云数据库GaussDB(for MySQL)时，如果您的CPU使用率很高或接近100%，会导致数据读写处理缓慢、无法获取连接、出现报错等，从而影响业务正常运行。解决方案通过查看慢SQL日志来确定是否存在运行缓慢的

 帮助中心 > 云数据库 TaurusDB > 常见问题 > 数据库性能
怎么解决查询运行缓慢的问题 - 云数据库 RDS

怎么解决查询运行缓慢的问题通过查看慢SQL日志来确定是否存在运行缓慢的SQL查询以及各个查询的性能特征（如果有），从而定位查询运行缓慢的原因。查询RDS for MySQL日志，请参见查询慢日志。查询RDS for PostgreSQL日志，请参见查看错误日志。云数据库 RDS

帮助中心 > 云数据库 RDS > 故障排除 > RDS for MySQL > 性能资源类
身份认证与访问 - 华为云UCS
身份认证与访问 - 华为云UCS

身份认证与访问 UCS支持IAM与Kubernetes的角色访问控制（RBAC）的精细的权限管理，实现UCS服务资源权限、集群中Kubernetes资源权限两种维度的权限控制，这两种权限针对的是不同类型的资源，在授权机制上也存在一些差异，具体如下： UCS服务资源权限：是基于IAM

帮助中心 > 华为云UCS > 产品介绍 > 安全
调用API报“No backend available” - API网关 APIG

调用API报“No backend available” 检查后端服务是否可以访问，如果不能访问，请修改后端服务。检查后端服务对应的ECS安全组配置，查看是否已开放您需要的端口。检查后端服务地址是否使用公网IP地址，如果使用，需要在APIG控制台的“实例管理 > 查看控制台 >

帮助中心 > API网关 APIG > 常见问题 > 调用API
节点池管理最佳实践 - 云容器引擎 CCE

节点池管理最佳实践本文将为您介绍与节点池管理相关的最佳实践，包括节点池创建、管理和弹性伸缩等方面，从而更好地满足业务需求。场景分类相关最佳实践创建节点池相关实践制作CCE节点自定义镜像创建节点时执行安装前/后脚本创建节点时使用OBS桶实现自定义脚本注入选择合适的节点数据盘大小

 帮助中心 > 云容器引擎 CCE > 用户指南 > 节点池
影响大对象迁移速度的关键因素有哪些？ - 迁移中心 MGC

影响大对象迁移速度的关键因素有哪些？在迁移大对象的过程中，迁移集群的以下几个关键因素可能会影响迁移速度：网络带宽限制：网络带宽不足，可能成为迁移速度的主要制约因素。建议：升级带宽或选择低峰时段进行迁移。迁移集群规格：如果迁移集群的规格小于推荐规格（8U16G）可能会因处理能力不足

 帮助中心 > 迁移中心 MGC > 常见问题 > 存储迁移
规格评估 - 迁移中心 MGC
规格评估 - 迁移中心 MGC

规格评估规格评估是根据源端资源规格、性能和应用场景以及特定的成本、可用性、性能、安全合规等需求，为您推荐最合适的华为云对应资源规格，通过规格评估确定迁移目的端。当前支持规格评估的资源类型为：主机、数据库、对象存储、容器、中间件。使用须知已绑定目的端的主机资源，无需进行规格推荐

 帮助中心 > 迁移中心 MGC > 用户指南 > 新版 > 迁移方案设计
HDFS基本原理 - MapReduce服务 MRS
HDFS基本原理 - MapReduce服务 MRS

HDFS基本原理 HDFS是Hadoop的分布式文件系统（Hadoop Distributed File System），实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写，多次读”的特征，而数据“写”操作是顺序写，也就是在文件创建时的写入或者在现有文件之后的添加操作

 帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍 > HDFS
DCS使用规范 - 分布式缓存服务 DCS

DCS使用规范业务使用规范原则原则说明备注就近部署业务，避免时延过大如果部署位置过远（非同一个region）或者时延较大（例如业务服务器与Redis实例通过公网连接），网络延迟将极大影响读写性能。如果对于时延较为敏感，请避免创建跨AZ Redis实例。冷热数据区分

 帮助中心 > 分布式缓存服务 DCS > 最佳实践 > 使用指导
修改Kafka Topic副本数 - 分布式消息服务Kafka版

修改Kafka Topic副本数创建Kafka实例Topic成功之后，您可以根据业务需要修改Topic的副本数。通过修改分区平衡可以实现修改副本数，Kafka控制台提供两种修改副本数的方法：使用自动平衡修改副本数和使用手动平衡修改副本数。约束与限制单机实例不支持修改副本数。

帮助中心 > 分布式消息服务Kafka版 > 用户指南 > 配置Topic > Topic管理
列举资源记录器收集的全部资源 - 配置审计 Config

列举资源记录器收集的全部资源功能介绍查询当前用户资源记录器收集的全部资源，需要当前用户有rms:resources:list权限。调用方法请参见如何调用API。 URI GET /v1/resource-manager/domains/{domain_id}/tracked-resources

帮助中心 > 配置审计 Config > API参考 > API > 资源清单
执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
为IAM子账号配置命名空间级别的权限 - 云容器引擎 CCE

为IAM子账号配置命名空间级别的权限应用场景在容器化环境中，不同团队和部门对资源的访问需求不尽相同。如果权限设置过于宽泛，可能会导致环境交叉占用、误操作和资源竞争等问题。为了解决这些问题，实现细粒度的权限控制尤为重要。 CCE权限管理是在统一身份认证服务（IAM）与Kubernetes

帮助中心 > 云容器引擎 CCE > 最佳实践 > 权限
什么是分区？ - 数据接入服务 DIS

什么是分区？分区（Partition）是DIS数据通道的基本吞吐量单位。创建通道时，将指定所需的分区数量。普通通道单分区容量：最高发送速度可达1MB/秒或1000条记录/秒（达到任意一种速度上限才会被限流），最高提取速度可达 2MB/秒，单次请求的记录总大小不能超过1MB（不包含

 帮助中心 > 数据接入服务 DIS > 常见问题 > 一般性问题

总条数： 6764

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

GaussDB(for MySQL) CPU使用率高的解决方法 - 云数据库 TaurusDB

怎么解决查询运行缓慢的问题 - 云数据库 RDS

身份认证与访问 - 华为云UCS

调用API报“No backend available” - API网关 APIG

节点池管理最佳实践 - 云容器引擎 CCE

影响大对象迁移速度的关键因素有哪些？ - 迁移中心 MGC

规格评估 - 迁移中心 MGC

HDFS基本原理 - MapReduce服务 MRS

DCS使用规范 - 分布式缓存服务 DCS

修改Kafka Topic副本数 - 分布式消息服务Kafka版

列举资源记录器收集的全部资源 - 配置审计 Config

执行训练任务 - AI开发平台ModelArts

为IAM子账号配置命名空间级别的权限 - 云容器引擎 CCE

什么是分区？ - 数据接入服务 DIS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线