搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
AI开发基本流程介绍 - AI开发平台ModelArts

一些常用的指标，如准确率、召回率、AUC等，能帮助您有效的评估，最终获得一个满意的模型。部署模型模型的开发训练，是基于之前的已有数据（有可能是测试数据），而在得到一个满意的模型之后，需要将其应用到正式的实际数据或新产生数据中，进行预测、评价、或以可视化和报表的形式把数据中的高价值信息

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
迁移过程使用工具概览 - AI开发平台ModelArts

于昇腾推理。精度性能检查工具 Benchmark精度检查工具，可以转换模型后执行推理前，使用其对MindSpore Lite模型进行基准测试，它不仅可以对MindSpore Lite模型前向推理执行耗时进行定量分析（性能），还可以通过指定模型输出进行可对比的误差分析（精度）。模型自动调优工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
自动学习训练作业失败 - AI开发平台ModelArts

数据集文件有以下限制：如果您使用2u8g规格，测试建议数据集文件应小于10MB。当文件大小符合限制要求，如果存在极端的数据规模（行数列数之积）时，仍可能会导致训练失败，建议的数据规模低于10000。如果您使用8u32g规格，测试建议数据集文件应小于100MB。当文件大小符合限

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

专属模型。调优模型：使用不同的调优参数去训练模型。部署模型服务：将调优后的模型部署成模型服务。使用模型服务：在MaaS体验模型服务，测试推理结果。结果分析：分析模型的调优结果和推理结果，对比新闻分类效果。方案优势高准确性：利用模型强大的语义理解能力，系统能够准确识别新

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
管理员和开发者权限分离 - AI开发平台ModelArts

”。管理员不做权限控制，此处默认使用普通用户委托即可。勾选“我已经详细阅读并同意《 ModelArts服务声明》”，单击“创建”。测试管理员用户权限。使用管理员用户登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

预计时长4分钟左右。图3 服务部署成功步骤四：预测结果在线服务部署完成后，单击“预测”页签。在“预测”页签，单击“上传”，上传一个测试图片，单击“预测”查看预测结果。此处提供一个样例图片供预测使用。本案例中使用的订阅模型可以识别81类常见超市商品，模型对预测图片有一定范

 帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

表示服务部署成功。预计时长4分钟左右。步骤4：预测结果在线服务部署完成后，单击“预测”页签。在“预测”页签，单击“上传”，上传一个测试图片，单击“预测”查看预测结果。此处提供一个样例图片供预测使用。本案例中使用的订阅模型可以识别81类常见超市商品，模型对预测图片有一定范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
单模型性能调优AOE - AI开发平台ModelArts

> aoe_unet2.log 此时，aoe_output下面会有对应的mindir模型，包含了AOE知识库信息。使用benchmark工具测试新生成的mindir模型性能，同AOE调优前的模型进行对比，可以看到模型性能有所提升。 #shell # 调优前命令如下： benchmark

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

String 微调产物输出OBS路径。 train_data_file String 训练数据文件名。 test_data_file String 测试数据文件名。 prompt_field String 数据prompt列名。 response_field String 数据response列名。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
部署推理服务 - AI开发平台ModelArts

(Press CTRL+C to quit) Step7 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。${containe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
pipeline应用准备 - AI开发平台ModelArts

改为步骤6中下载的onnx_models地址“/home_host/work/runwayml/onnx_models”。执行推理脚本进行测试，此处使用的推理硬件是CPU。由于CPU执行较慢，验证待迁移的代码可能需要大约15分钟左右才能完成。 cd modelarts-ascen

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
部署推理服务 - AI开发平台ModelArts

(Press CTRL+C to quit) Step7 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。${containe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

BASE_IMAGE=${base_image} . 注意：nerdctl build 会去镜像仓库拉取镜像，不会直接使用本地镜像。构建前可以nerdctl pull拉取测试镜像是否能拉取成功。 <镜像名称>:<版本名称>：定义镜像名称。示例：pytorch_2_1_ascend:20240606。 ${base_image}为基础镜像地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
分离部署推理服务 - AI开发平台ModelArts

--port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号。分离部署对外服务使用的是scheduler实例端口，在后续推理性能测试和精度测试时，服务端口需要和scheduler实例端口保持一致。 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务

总条数： 262

上一页
1
...
9
10
11
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线