搜索_华为云

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
容器resource资源 - 云容器引擎 CCE

容器resource资源 CPU配额申请：容器需要使用的最小CPU值限制：允许容器使用的CPU最大值参数名取值范围默认值是否允许修改作用范围 cpu 0.01-2000 0.25 允许 - 内存配额申请：容器需要使用的内存最小值限制：允许容器使用的内存最大值参数名取值范围默认值

 帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
配置智能访问控制规则精准智能防御CC攻击 - Web应用防火墙 WAF

开启智能访问控制规则后，WAF中的压力学习模型会根据源站返回的HTTP状态码和时延等来实时地感知源站的压力，从而识别源站是否被CC攻击了，WAF再根据异常检测模型实时地检测源站在HTTP协议上的特征的异常行为，然后基于这些异常特征，使用AI算法生成精准防护规则和CC防护规则，来防御CC攻击，保护您的网站安全。

帮助中心 > Web应用防火墙 WAF > 用户指南 > 配置防护策略
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel,

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU采用xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户定义使用的GPU数量，提高GPU利用率。 GPU虚拟化功能优势如下：灵活：精细配置GPU算力占比及显存大小，算力分

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
概述 - 天筹求解器服务 OptVerse
概述 - 天筹求解器服务 OptVerse

Interface，应用程序编程接口）的方式提供给用户，用户通过实时访问和调用API获取推理结果，帮助用户自动采集关键数据，打造智能化业务系统，提升业务效率。您可以使用本文档提供的天筹求解器服务API的描述、语法、参数说明及样例等内容，进行相关操作，例如天筹求解器服务包含的二维切割等具体接口使用说明。支持的全部操作请参见2

帮助中心 > API参考 > 使用前必读
Volcano调度概述 - 云容器引擎 CCE

Scheduler是负责Pod调度的组件，它由一系列action和plugin组成。action定义了调度各环节中需要执行的动作；plugin根据不同场景提供了action 中算法的具体实现细节。Volcano Scheduler具有高度的可扩展性，您可以根据需要实现自己的action和plugin。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
压缩NLP大模型 - 盘古大模型 PanguLargeModels

在“创建压缩任务”页面，选择需要压缩的基础模型，支持选择已发布模型或未发布模型。选择压缩策略。除INT8压缩策略外，部分模型支持INT4压缩策略，可在选择模型后，根据页面展示的策略进行选择。 INT8：该压缩策略将模型参数压缩至8位字节，可以有效降低推理显存占用。 INT4：该压缩策略

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
什么是OptVerse - 天筹求解器服务 OptVerse

什么是OptVerse 天筹求解器服务(OptVerse)是一种基于华为云基础架构和平台的智能决策服务，以自研AI求解器为核心引擎，结合机器学习与深度学习技术，为企业提供生产计划与排程、切割优化、路径优化、库存优化等一系列有竞争力的行业解决方案。使用要求 OptVerse以开放API（Application

帮助中心 > 产品介绍
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
Spark读写Hudi资源配置建议 - MapReduce服务 MRS

Spark读写Hudi任务资源配置规则，内存和CPU核心的比例2:1，堆外内存和CPU核心比例0.5:1；即一个核心，需要2G堆内存，0.5G堆外内存 Spark初始化入库场景，由于处理的数据量比较大，上述资源配比需要调整，内存和Core的比例推荐4:1，堆外内存和Core的比例1:1。示例： spark-submit

帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > Hudi应用开发规范 > Spark on Hudi开发规范
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
安装并使用XGPU - Huawei Cloud EulerOS

当CUDA应用程序创建时，会在GPU卡上申请一小部分UVM显存（在Nvidia Tesla T4上大约为3 MiB），这部分显存属于管理开销，不受XGPU服务管控。暂不支持同时在裸机环境以及该环境直通卡的虚拟机中同时使用。 XGPU服务的隔离功能不支持以UVM的方式申请显存，即调用CUDA API cud

帮助中心 > Huawei Cloud EulerOS > 用户指南 > XGPU共享技术
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它不仅比传统的WebUI更迅速，而且显存占用更为经济。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

总条数： 10000

上一页
1
...
6
7
8
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

容器resource资源 - 云容器引擎 CCE

配置智能访问控制规则精准智能防御CC攻击 - Web应用防火墙 WAF

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

GPU调度概述 - 华为云UCS

概述 - 天筹求解器服务 OptVerse

Volcano调度概述 - 云容器引擎 CCE

压缩NLP大模型 - 盘古大模型 PanguLargeModels

使用AWQ量化工具转换权重 - AI开发平台ModelArts

什么是OptVerse - 天筹求解器服务 OptVerse

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

Spark读写Hudi资源配置建议 - MapReduce服务 MRS

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

安装并使用XGPU - Huawei Cloud EulerOS

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线