搜索_华为云

使用llm-compressor工具量化 - AI开发平台ModelArts

= 512 执行权重量化： python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
训练迁移快速入门案例 - AI开发平台ModelArts

当前提供了自动迁移工具进行GPU到昇腾适配，原理是通过monkey-patch的方式将torch下的CUDA、nccl等操作映射为NPU和hccl对应的操作。如果没有用到GPU的高阶能力，例如自定义算子、直接操作GPU显存等操作，简单场景下可以直接使用自动迁移。图1 torch_npu工作原理示意图 NPU（Neural

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
创建Standard专属资源池 - AI开发平台ModelArts

用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图4 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟私有云”，跳转到网络控制台，申请创建虚拟私有云。如果没有子网可选，可以单击右侧的“创建子网”，跳转到网络控制台，创建可用的子网。支持1个VPC下多

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 1、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用Msprobe工具分析偏差 - AI开发平台ModelArts

结束标识如下图回显Exception: msprobe: exit after iteration 0。创建如下compare.json文件。 { "npu_path": "./npu_dump/dump.json", "bench_path": "./bench_dump/dump

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 精度对齐
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

在遇到资源不足的情况时，ModelArts会进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。支持的模型列表和权重文件本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

仅支持313T、376T、400T 训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表及权重文件地址支持模型支持模型参数量权重文件获取地址 Llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查询支持的镜像列表 - AI开发平台ModelArts

PRIVATE：私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id String 工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求示例 GET https://{endpoint}/v

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
管理批量服务生命周期 - AI开发平台ModelArts

勾选批量服务列表中的服务，然后单击列表左上角“删除”按钮，批量删除服务。单击目标服务名称，进入服务详情页面，单击右上角“删除”按钮进行删除。删除操作无法恢复，请谨慎操作。没有委托授权时，无法删除服务。重启服务批量服务不支持重启。父主题：管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

签查看资源池上创建的训练作业、部署的推理服务、创建的Notebook实例。图1 删除资源池释放游离节点如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询训练日志 - AI开发平台ModelArts

er-0","worker-1"，依次类推。表3 返回参数参数参数类型描述 content String 日志内容。如果日志大小没有超过上限（n兆），则返回全部内容；如果日志超过了上限（n兆），则返回最新的n兆的日志。 current_size Integer 当前返

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Lite Cluster资源配置流程 - AI开发平台ModelArts

kubectl是Kubernetes集群的命令行工具，配置kubectl后，您可通过kubectl命令操作Kubernetes集群。 3 配置Lite Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
创建IAM用户并授权使用MaaS - AI开发平台ModelArts

IAM权限设置是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。 ModelArts CommonOperations 必选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
使用GPTQ量化 - AI开发平台ModelArts

a-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

a-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

a-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

a-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 1540

上一页
1
...
66
67
68
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用llm-compressor工具量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

管理批量服务生命周期 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

创建IAM用户并授权使用MaaS - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线