搜索_华为云

推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化使用llm-compressor工具量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化使用llm-compressor工具量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
eagle 投机小模型训练 - AI开发平台ModelArts

py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查看模型评估结果 - AI开发平台ModelArts

查看模型评估结果训练作业运行结束后，ModelArts可为您的模型进行评估，并且给出调优诊断和建议。针对使用预置算法创建训练作业，无需任何配置，即可查看此评估结果（由于每个模型情况不同，系统将自动根据您的模型指标情况，给出一些调优建议，请仔细阅读界面中的建议和指导，对您的模型进行进一步的调优）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询模型列表 - AI开发平台ModelArts

不分页的情况下，符合查询条件的总模型数量。 count Integer 模型数量。 models model结构数组模型元数据信息。表3 model结构参数参数类型描述 model_id String 模型ID。 model_name String 模型名称。 model_version

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
自定义模型规范 - AI开发平台ModelArts

自定义模型规范 AI Gallery除了支持托管文本生成和文本问答任务类型的模型，还支持托管其他任务类型的模型，其他任务类型的模型被称为自定义模型。但是托管的自定义模型要满足规范才支持使用AI Gallery工具链服务（微调大师、在线推理服务）。自定义模型的使用流程托管模型到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
eagle投机小模型训练 - AI开发平台ModelArts

py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
模型管理计费项 - AI开发平台ModelArts

假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算，那么创建的费用计算如下：存储费用：创建模型的模型包文件通过对象存储服务（OBS）上传或导出，存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。综上，模型的费用 = 存储费用父主题：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务背景说明目前大模型的参数量已经达到千亿甚至万亿，随之大模型的体积也越来越大。千亿参数大模型的体积超过200G，在版本管理、生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
模型配置文件编写说明 - AI开发平台ModelArts

模型配置文件编写说明模型开发者发布模型时需要编写配置文件config.json。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件格式说明配置文件为JSON格式，参数说明如表1所示。表1 参数说明参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
在MaaS中创建模型 - AI开发平台ModelArts

在MaaS中创建模型在ModelArts Studio大模型即服务平台使用基础模型创建个人专属模型。场景描述 MaaS提供了基于昇腾云算力适配的开源大模型，您可以使用这些基础模型，结合自定义的模型权重文件，创建个人专属的模型。创建成功的模型可以在ModelArts Stud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用MaaS压缩模型 - AI开发平台ModelArts

使用MaaS压缩模型在ModelArts Studio大模型即服务平台完成模型创建后，可以对模型进行压缩，获得更合适的模型。场景描述模型压缩是指将高比特浮点数映射到低比特量化空间，从而减少显存占用的资源，降低推理服务时延，提高推理服务吞吐量，并同时减少模型的精度损失。模型压缩适用于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
部署模型为在线服务 - AI开发平台ModelArts

池的物理池。 “选择模型及配置” “模型来源” 根据您的实际情况选择“自定义模型”或者“订阅模型”。 “选择模型及版本” 选择状态“正常”的模型及版本。 “分流” 设置当前实例节点的流量占比，服务调用请求根据该比例分配到当前版本上。如您仅部署一个版本的模型，请设置为100%。如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
训练预测分析模型 - AI开发平台ModelArts

被用户标注为某个分类的所有样本中，模型正确预测为该分类的样本比率，反映模型对正样本的识别能力。 precision：精确率被模型预测为某个分类的所有样本中，模型正确预测的样本比率，反映模型对负样本的区分能力。 accuracy：准确率所有样本中，模型正确预测的样本比率，反映模型对样本整体的识别能力。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

--local-dir <模型下载路径> 如果要下载指定版本的模型文件，则命令如下： huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --revision <模型版本> --local-dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

--max-model-len的值。 config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenizer/chatglm3-6b/config.json 问题3：使用离线推理时，性能较差或精度异常。解决方法：将block_size大小设置为128。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）

总条数： 1779

上一页
1
2
3
4
5
...
89
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

查询模型列表 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线