搜索_华为云

使用llm-compressor工具量化 - AI开发平台ModelArts

2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

2、如果量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
数据管理计费项 - AI开发平台ModelArts

增强的数据处理任务时，不收费。但是存储到OBS中的数据会收取费用。具体内容如表1所示。表1 存储计费项计费项计费项说明适用的计费模式计费公式存储资源对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用llm-compressor工具量化 - AI开发平台ModelArts

2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
Chunked Prefill - AI开发平台ModelArts

false：不开启Chunked Prefill特性。 max-num-batched-tokens int >=256且是256的倍数在Chunked Prefill模式下，该参数限制最大切分长度，允许比max-model-len小。推荐使用4096、8192甚至更大。执行推理参考 Ascend vllm使用Chunked

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
将模型部署为批量推理服务 - AI开发平台ModelArts

规格供使用。 “实例数” 设置当前版本模型的实例个数。如果节点个数设置为1，表示后台的计算模式是单机模式；如果节点个数设置大于1，表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量，注入环境变量到容器实例。为确保您的数据安全，在环境变量中，请勿输入敏感信息，如明文密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
Lite Server资源开通 - AI开发平台ModelArts

靠、安全、灵活、高效的应用环境，确保服务持久稳定运行，提升运维效率。计费模式请选择“包年/包月”模式。包年/包月是预付费模式，按订单的购买周期计费，适用于可预估资源使用周期的场景，价格比按需计费模式更优惠。目前暂不支持按需计费。区域不同区域的云服务产品之间内网互不相通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
获取训练作业支持的AI预置框架 - AI开发平台ModelArts

7-ubuntu_18.04-x86_64", "engine_name" : "Horovod", "engine_version" : "horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64",

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

节点的本地存储空间来加载模型包，并在服务停止和重启时仍有效（通过哈希值保证数据一致性）使用大模型要求用户采用自定义引擎，并开启动态加载的模式导入模型。基于此，需要执行以下操作：如果模型超过默认配额值，需要提工单申请扩大单个模型的大小配额。单个模型大小配额默认值为20GB。需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
创建训练作业 - AI开发平台ModelArts

算法的代码目录下载到训练容器内的本地路径。规则：必须为/home下的目录。 v1兼容模式下，当前字段不生效。当code_dir以file://为前缀时，当前字段不生效。 working_dir 否 String 运行算法时所在的工作目录。规则：v1兼容模式下，当前字段不生效。 environments 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
PD分离部署使用说明 - AI开发平台ModelArts

--mode：脚本的处理模式，可选值为gen或者merge。gen模式表示生成rank_table文件，merge模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。 --api-server：仅在gen模式有效，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启。父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

创建训练作业时，可通过环境变量“MOX_FILE_PARTIAL_MAXIMUM_SIZE”设置用户需要分段下载的大文件阈值（单位为Bytes），超过该阈值的文件将使用并发下载模式进行分段下载。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

支持的功能配置建议管理模型 ModelArts modelarts:model:* 创建、删除、查看、导入AI模型。建议配置。仅在严格授权模式开启后，需要显式配置左侧权限。 SWR SWR Admin SWR Admin为SWR最大权限，用于：从自定义镜像导入。从OBS导入时使用自定义引擎。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
创建生产训练作业 - AI开发平台ModelArts

（可选）选择训练模式当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时，则支持选择训练模式。ModelArts提供了3种训练模式供用户选择，支持根据实际场景获取不同的诊断信息。普通模式：默认训练场景。高性能模式：最小化调测信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
专属资源池计费项 - AI开发平台ModelArts

进行运行自动学习、Workflow、开发环境、模型训练和部署服务的费用。具体内容如表1所示。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源专属资源池使用计算资源的用量。具体费用可参见ModelArts价格详情。按需计费规格单价 * 计算节点个数 *

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 250

上一页
1
...
5
6
7
...
13
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

获取训练作业支持的AI预置框架 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

专属资源池计费项 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线