搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend Snt9B。软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.907软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

说明 URI-scheme 传输请求的协议，当前所有API均采用HTTPS协议。 Endpoint 承载REST服务端点的服务器域名或IP，不同服务在不同区域时，对应Endpoint不同，可以从终端节点中获取。例如IAM服务在“华北-北京一”区域的Endpoint为“iam.cn-north-1

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
重置节点后无法正常使用？ - AI开发平台ModelArts

当ModelArts Lite的CCE集群在资源池上只有一个节点，且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
管理标注数据 - AI开发平台ModelArts

添加数据。图7 添加数据在弹出的导入对话框中，选择数据来源和导入方式，选择导入的数据路径和数据标注状态。图8 添加图片在导入对话框中，单击“确定”，完成添加数据的操作。您添加的图片将自动呈现在“全部”的图片列表中，也可单击“添加数据>查看历史记录”，进入“任务历史”界面，可查看相应的导入历史。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？当前训练任务排队的逻辑是先进先出，前面的任务没运行完后面的任务不会运行，有可能会造成小任务被“饿死”，需要用户注意。饿死指的是前面的任务被一个大的任务堵着（例如是64卡），需要等空闲64卡这个任务才能运行，64卡的任务后面跟着1卡的。即使现

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

“-k”是指允许不使用证书到SSL站点。 “-F”是指上传数据的是文件，本例中参数名为“images”，这个名字可以根据具体情况变化，@后面是图片的存储路径。 “-H”是post命令的headers，Headers的Key值为“X-Auth-Token”，这个名字为固定的， Token值是获取的用户Token。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务在ModelArts的开发环境Notebook中可以部署推理服务进行调试。 Step1 准备Notebook 参考准备Notebook完成Notebook的创建，并打开Notebook。 Step2 准备权重文件将OBS中的模型权重上传

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

tch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
发布解决方案 - AI开发平台ModelArts

如果你已经注册成为了AI Gallery平台上的合作伙伴，AI Gallery支持发布共享你的解决方案。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“解决方案”进入解决方案列表页，单击右上方的“发布”，进入发布解决方案页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
实时推理的部署及使用流程 - AI开发平台ModelArts

实时推理的部署及使用流程在创建完模型后，可以将模型部署为一个在线服务。当在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。访问在线服务时，您可以根据您的业务需求，分别确认使用何种认证

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
执行训练任务（推荐） - AI开发平台ModelArts

修改训练Yaml配置文件修改超参值后，修改config.yaml中的${command}，替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。多机启动以 Llama2-70B 为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务

总条数： 1823

上一页
1
...
6
7
8
...
92
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

管理标注数据 - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

发布解决方案 - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线