检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
GPU服务器上配置Lite Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件
使用llm-compressor工具量化 当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。 本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下: 开始之前,请确保安装了以下库:
使用llm-compressor工具量化 当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。 本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下: 开始之前,请确保安装了以下库:
Finetune是指在已经训练好的SDXL模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能的过程。 本文档主要介绍如何利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,完成SDXL Finetune训练。 资源规格要求 推荐使用“西南-贵阳一”Region上的Lite
Vicuna,用于通用的视觉和语言理解,实现了令人印象深刻的聊天能力,在科学问答(Science QA)上达到了新的高度。 本文档主要介绍如何利用ModelArts Lite Server,使用PyTorch_npu+华为自研Ascend Snt9B硬件,完成LLaVA模型推理。
能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
uri String 实例私有IP地址。 表5 Image 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的
可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的