搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

制台，清理您不再使用的数据、文件夹以及OBS桶，避免产生不必要的费用。您在创建Notebook时，选择了云硬盘EVS存储，该存储会单独收费，Notebook停止后，EVS还在计费，请及时删除该Notebook实例。您在体验CodeLab时，切换规格为付费的规格时会收费。请前往

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

${Port} 参数说明： - IdentityFile：本地密钥路径 - User：用户名，例如：ma-user - HostName：IP地址 - Port：端口号在VS Code中手工配置远程连接时，在本地的ssh config文件中增加配置参数“StrictHostKeyChecking

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

原因分析出现该问题的可能原因如下：桶中的对象不存在，请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。处理方法检查OBS路径及内容格式是否正常。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

retCode=0x91, [the model stream execute failed] 原因分析出现该问题的可能原因如下：数据读入的速度跟不上模型迭代的速度。处理方法减少预处理shuffle操作。 dataset = dataset.shuffle(buffer_size=x)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
W8A16量化 - AI开发平台ModelArts
W8A16量化 - AI开发平台ModelArts

使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。约束限制只支持GPTQ W8A16 perchannel量化，只支持desc_act=false。 GPTQ W8A16量化支持的模型请参见支持的模型列表。步骤一：量化模型权重在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
删除训练作业 - AI开发平台ModelArts

g-jobs/{training_job_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
删除训练作业标签 - AI开发平台ModelArts

TmsTagForDelete objects 要删除的标签列表。表3 TmsTagForDelete 参数是否必选参数类型描述 key 是 String TMS标签的key。 value 否 String TMS标签的value，非必填。响应参数无请求示例 DELETE

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

（可选）Session鉴权 Session模块的主要作用是实现与公有云资源的鉴权，并初始化ModelArts SDK Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用，包括创建OBS桶，上传/下载文件和文件夹，删除OBS对象和桶。

帮助中心 > AI开发平台ModelArts > SDK参考
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
删除工作流定时调度信息 - AI开发平台ModelArts

表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 schedule_id 是 String 工作流调度信息ID。请求参数无响应参数

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询训练作业标签 - AI开发平台ModelArts

of TmsTag objects TMS的标签结构体。表3 TmsTag 参数参数类型描述 key String TMS标签的key。长度不能超过128个字符，首尾不能有空格，不能以_sys_开头。 value String TMS标签的value。长度不能超过255个字符。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

fit_transform(train_x['acc_id1'].astype(str)) 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地I

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

内容审核深入业务场景，提供完备成熟的内容审核/CV场景快速昇腾迁移的方案，高效解决业务内容审核的算力/国产化需求，助力企业业务稳健发展。政府提高公共服务的效率和质量，加强公共安全，优化政策方案和决策过程等。金融为金融机构带来更加高效、智能、精准的服务。矿山提供端到端AI生

 帮助中心 > AI开发平台ModelArts > 产品介绍
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 2266

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

W8A16量化 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

删除训练作业标签 - AI开发平台ModelArts

文档导读 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

删除工作流定时调度信息 - AI开发平台ModelArts

查询训练作业标签 - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线