搜索_华为云

附录：大模型推理常见问题 - AI开发平台ModelArts

py第39行为SUPPORT_FP16 = True 问题8：使用benchmark-tools对GLM系列模型进行性能测试报错使用benchmark-tools对GLM系列模型进行性能测试报错TypeError: _pad() got an unexpected keyword argument

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

\"crossbow\"], \"type\": \"string\"}}}" }' Step5 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
创建诊断任务 - AI开发平台ModelArts

p大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu memory（取决于模型大小），请根据实际分析环境的资源规格

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

Structured Pruning) 一种针对LLM进行结构化剪枝的算法，可以减少大模型对于内存和计算资源的需求，提升推理速度，同时其具备比较高的剪枝速度。使用FASP对大模型进行稀疏化剪枝，可以在几乎不影响推理精度情况下，可以有效提升推理性能（吞吐等）。本文主要应用FASP对LLM进行剪枝压缩。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
Standard推理部署 - AI开发平台ModelArts

少？ ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ ModelArts在线服务预测时，如何提高预测速度？在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ ModelArts在线服务的API接口组成规则是什么？ M

帮助中心 > AI开发平台ModelArts > 常见问题
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

--rank <rank> --save_steps=5 --max_steps 100 <cfgs_yaml_file>：性能或精度测试配置的yaml文件地址，如代码目录中performance_cfgs.yaml、accuracy_cfgs.yaml相对或绝对路径，根据自己要求执行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 训练速度突然下降以及执行nvidia-smi卡顿如何解决？ GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA

帮助中心 > AI开发平台ModelArts > 故障排除
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

False Bool ignore_eos表示是否忽略EOS并且继续生成token。 Step5 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

moondream2 moondream2:/home/ma-user/ #复制moondream2目录到容器中 Step5 准备测试数据需要用户自己准备测试图片。将测试图片存放在宿主机/home/temp/data目录下，修改目录权限后，复制到容器中。 chmod -R 777 data

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。若需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
解析Manifest文件 - AI开发平台ModelArts

标注属性请见表4。 usage String 用途，可选值为TRAIN、EVAL、TEST、INFERENCE。指明该对象用于训练、评估、测试、推理，如果没有给出该字段，则使用者自行决定如何使用该对象。 inference_loc String 当此Manifest文件由推理服务

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化

总条数： 337

上一页
1
...
10
11
12
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：大模型推理常见问题 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线