搜索_华为云

使用AWQ量化工具转换权重 - AI开发平台ModelArts

方式二：使用AutoAWQ量化工具进行量化。 1、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

conda activate awq 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 python examples/quantize.py --model-path /home/ma-user/llama-2-7b/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
Standard资源池节点故障定位 - AI开发平台ModelArts

错误未被抑制，可能影响后续业务，需要重置卡或重启节点。观测方式：Xid事件中包含95事件。(Remapped的Pending记录只作为提示，当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡，SRAM Uncorrectable>4或者Remapped Failed。 A050102 GPU 其他

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
使用AWQ量化工具转换权重 - AI开发平台ModelArts

transformers bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
在推理生产环境中部署推理服务 - AI开发平台ModelArts

设置AI应用单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。首次创建AI应用预计花费40~60分钟，之后每次构建AI应用花费时间预计5分钟。图4 创建完成如果权重文件大于60G，创建AI应用会报错，提示模型大于60G，请提工单扩容。 Step3 部署在线服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
使用AWQ量化 - AI开发平台ModelArts

llm_tools/AutoAWQ bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

llm_tools/AutoAWQ bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
ModelArts自动学习与ModelArts PRO的区别是什么？ - AI开发平台ModelArts

开发用于图像分类、物体检测、预测分析、文本分类、声音分类等场景的模型。而ModelArts PRO是一款为企业级AI应用打造的专业开发套件。用户可根据预置工作流生成指定场景模型，无需深究底层模型开发细节。ModelArts PRO底层依托ModelArts平台提供数据标注、模

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
使用AWQ量化 - AI开发平台ModelArts

conda activate awq 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 python examples/quantize.py --model-path /home/ma-user/llama-2-7b/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

transformers bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

llm_tools/AutoAWQ bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
查看批量服务详情 - AI开发平台ModelArts

事件保存周期为1个月，1个月后自动清理数据。查看服务的事件类型和事件信息，请参见查看在线服务的事件日志展示当前服务下每个模型的日志信息。包含最近5分钟、最近30分钟、最近1小时和自定义时间段。自定义时间段您可以选择开始时间和结束时间。当服务启用运行日志输出后，页面展示存放到云日志服务LTS中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
创建训练任务 - AI开发平台ModelArts

-a resnet50 -b 128 --epochs 5 dog_cat_1w/ 此处的“demo”为用户自定义的OBS存放代码路径的最后一级目录，可以根据实际修改。资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择单GPU规格。单击“提交”，在“信息确认”页

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

conda activate awq 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 python examples/quantize.py --model-path /home/ma-user/llama-2-7b/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
推理性能测试 - AI开发平台ModelArts

enchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请求时，平台每次请求预测的时间不能超过60秒。例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

设置AI应用单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。首次创建AI应用预计花费40~60分钟，之后每次构建AI应用花费时间预计5分钟。图4 创建完成如果权重文件大于60G，创建AI应用会报错，提示模型大于60G，请提工单扩容。 Step3 部署在线服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
什么是ModelArts - AI开发平台ModelArts

海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开发、模型训练、模型部署都可以在ModelArts上完成。从技术上看，ModelAr

帮助中心 > AI开发平台ModelArts > 产品介绍
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

性能到上限时，就会IO排队。IO排队造成处理时间超过 1 分钟时，客户端内核会打印"rpc_check_timeout:939 callbacks suppressed"日志。这个日志只是说明某个IO处理时间超过 1 分钟了，不会造成数据丢失。客户端有重试机制，等峰值过去后，所有

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
资源池监控 - AI开发平台ModelArts

sampleCount：采样统计 period 否 String 监控数据粒度，单位为秒。可选值如下： 60：粒度为1分钟，默认值 300：粒度为5分钟 900：粒度为15分钟 3600：粒度为1小时请求参数无响应参数状态码：200 表3 响应Body参数参数参数类型描述 metrics

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
推理性能测试 - AI开发平台ModelArts

enchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请求时，平台每次请求预测的时间不能超过60秒。例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）

总条数： 358

上一页
1
2
3
4
5
...
18
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

ModelArts自动学习与ModelArts PRO的区别是什么？ - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线