搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --qua

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
W8A16量化 - AI开发平台ModelArts
W8A16量化 - AI开发平台ModelArts

to("cpu") quantized_model.save_pretrained("CodeLlama-34b-hf") 步骤二：启动量化服务使用量化模型需要在NPU的机器上运行。在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
使用kv-cache-int8量化 - AI开发平台ModelArts

n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --qua

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
查询作业资源规格 - AI开发平台ModelArts

String 云资源的规格类型。 max_num Integer 可以选择的最大节点数量。 unit_num Integer 计价单元个数。 storage String 资源规格的ssd大小。 interface_type Integer 接口类型。 no_resource Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

如果使用Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

用户名：输入DWS集群管理员用户的用户名。密码：输入DWS集群管理员用户的密码。从DWS导入数据，需要借助DLI的功能，如果用户没有访问DLI服务的权限，需根据页面提示创建DLI的委托。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导 - AI开发平台ModelArts

本方案部署支持用BF16量化权重，使用的Ascend Snt9B资源规格见下表。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。表1 支持最小卡数和最大序列说明序号模型名

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

--per-channel：权重量化方法，如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。参考启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 使用llm-compre

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
Finetune训练 - AI开发平台ModelArts

tpu_use_cluster: false tpu_use_sudo: false use_cpu: false 启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
查询APP是否存在 - AI开发平台ModelArts

请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
准备数据（可选） - AI开发平台ModelArts

json.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json 数据存放参考目录结构如下： ${workdir}（例如/h

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备数据（可选） - AI开发平台ModelArts

_data.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json 数据存放参考目录结构如下： ${workdir}（例如/h

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 准备工作
创建和修改工作空间 - AI开发平台ModelArts

当不需要该工作空间时，可以调用删除工作空间接口删除工作空间。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项目名称和ID、获取帐号名和ID和获取用户名和ID。操作步骤调用认证鉴权接口获取用户的Token。请求消息体： URI格式：POST

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

SFT和LoRA微调使用的Alpaca数据集下载：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json，数据大小：43.6 MB。自定义数据用户也可以自行准备训练数据。数据要求如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
训练的数据集预处理说明 - AI开发平台ModelArts

handler-name参数说明数据集预处理中 --handler-name 都会传递参数，用于构建实际处理数据的handler对象，并根据handler对象对数据集进行解析。文件路径在：ModelLink/modellink/data/data_handler.py。基类BaseDatasetHandler解析

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

handler-name参数说明数据集预处理中 --handler-name 都会传递参数，用于构建实际处理数据的handler对象，并根据handler对象对数据集进行解析。文件路径在：ModelLink/modellink/data/data_handler.py。基类BaseDatasetHandler解析

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
删除AI应用 - AI开发平台ModelArts

请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请参考《主流开源大模型基于Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
更新网络资源 - AI开发平台ModelArts

0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表14 NetworkConnection 参数参数类型描述 peerConnectionList Array of peerConnectionList

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 1706

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

W8A16量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

查询APP是否存在 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

创建和修改工作空间 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

删除AI应用 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线