搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。抽取kv-cache量化系数。该步骤的目的是将步骤1中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
API/SDK - AI开发平台ModelArts
API/SDK - AI开发平台ModelArts

SDK、OBS SDK和MoXing的区别？ ModelArts的API或SDK支持模型下载到本地吗？ ModelArts的SDK支持哪些安装环境？ ModelArts通过OBS的API访问OBS中的文件，算内网还是公网？调用API提交训练作业后，能否绘制作业的资源占用率曲线？如

 帮助中心 > AI开发平台ModelArts > 常见问题
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

size的大小最大支持50G。如果使用的是OBS导入或者训练导入，则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。如果使用的是自定义镜像导入，则包含解压后镜像和镜像下载文件的大小总和。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
最新动态 - AI开发平台ModelArts
最新动态 - AI开发平台ModelArts

本文介绍了ModelArts各特性版本的功能发布和对应的文档动态，新特性将在各个区域（Region）陆续发布，欢迎体验。 2023年8月序号功能名称功能描述阶段相关文档 1 Notebook连接大数据服务特性介绍如何将ModelArts Notebook开发环境与华为云大数据服务DLI中的Spar

帮助中心 > AI开发平台ModelArts > 最新动态
服务预测失败 - AI开发平台ModelArts

4503 当使用推理的镜像并且出现MR.XXXX类型的错误时，表示已进入模型服务，一般是模型推理代码编写有问题。请根据构建日志报错信息，定位服务预测失败原因，修改模型推理代码后，重新导入模型进行预测。经典案例：在线服务预测报错MR.0105 出现其他情况，优先检查客户端和外部网络是否有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
Chunked Prefill - AI开发平台ModelArts

Prefill（Splitfuse）特性的目的是将长prompt request分解成更小的块，并在多个forward step中进行调度，只有最后一块的forward完成后才开始这个prompt request的生成。将短prompt request组合以精确填充step的空隙，每个step的计算量基本相等，达到所有请求平均延迟更稳定的目的。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
删除资源池 - AI开发平台ModelArts

Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如：nodePool-1。表15 azs 参数参数类型描述 az String AZ的名称。 count

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用Notebook进行代码调试 - AI开发平台ModelArts

描述、是否自动停止，详细参数请参见表1。表1 基本信息的参数描述参数名称说明 “名称” Notebook的名称。只能包含数字、大小写字母、下划线和中划线，长度不能大于64位且不能为空。 “描述” 对Notebook的简要描述。 “自动停止” 默认开启，且默认值为“1小时”，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
AI Gallery功能介绍 - AI开发平台ModelArts

Gallery提供了大量基于昇腾云底座适配的三方开源大模型，同步提供了可以快速体验模型的能力、极致的开发体验，助力开发者快速了解并学习大模型。构建零门槛线上模型体验，零基础开发者开箱即用，初学者三行代码使用所有模型通过AI Gallery的模型在线模型体验，可以实现模型服务的即时可用性，开发者无需

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。抽取kv-cache量化系数。该步骤的目的是将步骤1中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

单击“上传”，选择一张需要预测的图片，单击“预测”，即可在右边的预测结果显示区查看您的预测结果。图5 预测样例图图6 查看预测结果本案例中数据和算法生成的模型仅适用于教学模式，并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求，预测图片必须和训练数据集中的图片相似才可能预测准确。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

单击“上传”，选择一张需要预测的图片，单击“预测”，即可在右边的预测结果显示区查看您的预测结果。图5 预测样例图图6 查看预测结果本案例中数据和算法生成的模型仅适用于教学模式，并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求，预测图片必须和训练数据集中的图片相似才可能预测准确。

帮助中心 > AI开发平台ModelArts > 快速入门
团队成员查询团队标注任务列表 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为10。 offset 否 Integer 分页列表的起始页，默认为0。 order 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询资源池 - AI开发平台ModelArts

Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如：nodePool-1。表15 azs 参数参数类型描述 az String AZ的名称。 count

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
订阅免费算法 - AI开发平台ModelArts

算法”，进入“我的算法”页面。选择“我的订阅”页签，进入个人订阅的算法列表。在算法列表选择需要使用的算法，单击“应用控制台”列的“ModelArts”。在弹出的“选择云服务区域”页面选择ModelArts所在的云服务区域，单击“确定”跳转至ModelArts控制台的“算法管理 >

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用

总条数： 1246

上一页
1
...
47
48
49
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

API/SDK - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

最新动态 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

删除资源池 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

团队成员查询团队标注任务列表 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

订阅免费算法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线