搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
迁移过程使用工具概览 - AI开发平台ModelArts

于昇腾推理。精度性能检查工具 Benchmark精度检查工具，可以转换模型后执行推理前，使用其对MindSpore Lite模型进行基准测试，它不仅可以对MindSpore Lite模型前向推理执行耗时进行定量分析（性能），还可以通过指定模型输出进行可对比的误差分析（精度）。模型自动调优工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
内存不足如何处理？ - AI开发平台ModelArts

存需求增多。处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存，请升级在线服务选择更大内存规格的计算节点。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
自定义模型规范 - AI开发平台ModelArts

其他任务类型的模型，其他任务类型的模型被称为自定义模型。但是托管的自定义模型要满足规范才支持使用AI Gallery工具链服务（微调大师、在线推理服务）。自定义模型的使用流程托管模型到AI Gallery。模型基础设置里的“任务类型”选择除“文本问答”和“文本生成”之外的类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

"application/json" } } ] 将模型部署为在线服务参考部署为在线服务将模型部署为在线服务。在线服务创建成功后，您可以在服务详情页查看服务详情。您可以通过“预测”页签访问在线服务。父主题：制作自定义镜像用于推理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

单击新建的模型名称左侧的小三角形，展开模型的版本列表。在操作列单击“部署 > 在线服务”，跳转至在线服务的部署页面。在部署页面，参考如下说明填写关键参数。 “名称”：按照界面提示规则自定义一个在线服务的名称，也可以使用默认值。 “资源池”：选择“公共资源池”。 “模型来源”和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
自动学习训练作业失败 - AI开发平台ModelArts

数据集文件有以下限制：如果您使用2u8g规格，测试建议数据集文件应小于10MB。当文件大小符合限制要求，如果存在极端的数据规模（行数列数之积）时，仍可能会导致训练失败，建议的数据规模低于10000。如果您使用8u32g规格，测试建议数据集文件应小于100MB。当文件大小符合限

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
运行第一条Workflow - AI开发平台ModelArts

按需计费规格，使用完之后请及时停止Workflow，避免产生不必要的费用。测试推理服务：工作流运行完成后，在服务部署节点右侧单击“实例详情”跳转至推理服务详情页。或者在ModelArts管理控制台，选择“部署上线>在线服务”，找到部署的推理服务，单击服务名称，进入服务详情页。单击“预测”，右边可查看预测结果。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
服务预测 - AI开发平台ModelArts
服务预测 - AI开发平台ModelArts

服务预测服务预测失败服务预测失败，报错APIG.XXXX 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4503 在线服务预测报错MR.0105 Method Not Allowed 请求超时返回Timeout

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
Standard推理部署 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ ModelArts平台是否支持多模型导入？在ModelArts中导入模型对于镜像大小有什么限制？ ModelArts在线服务和批量服务有什么区别？ ModelArts在线服务和边缘服务有什么区别？在ModelA

帮助中心 > AI开发平台ModelArts > 常见问题
服务状态一直处于“部署中” - AI开发平台ModelArts

模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何修改默认端口号，请参考使用自定义镜像创建在线服务，如何修改默认端口。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
将模型部署为实时推理作业 - AI开发平台ModelArts

将模型部署为实时推理作业实时推理的部署及使用流程部署模型为在线服务访问在线服务支持的认证方式访问在线服务支持的访问通道访问在线服务支持的传输协议父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
管理员和开发者权限分离 - AI开发平台ModelArts

”。管理员不做权限控制，此处默认使用普通用户委托即可。勾选“我已经详细阅读并同意《 ModelArts服务声明》”，单击“创建”。测试管理员用户权限。使用管理员用户登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

专属模型。调优模型：使用不同的调优参数去训练模型。部署模型服务：将调优后的模型部署成模型服务。使用模型服务：在MaaS体验模型服务，测试推理结果。结果分析：分析模型的调优结果和推理结果，对比新闻分类效果。方案优势高准确性：利用模型强大的语义理解能力，系统能够准确识别新

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
ModelArts Standard自动学习所创建项目一直在扣费，如何停止计费？ - AI开发平台ModelArts

登录ModelArts控制台，在自动学习作业列表中，删除正在扣费的自动学习作业。在训练作业列表中，停止因运行自动学习作业而创建的训练作业。在“在线服务”列表中，停止因运行自动学习作业而创建的服务。操作完成后，ModelArts服务即停止计费。登录OBS控制台，进入自己创建的OBS桶

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
约束与限制 - AI开发平台ModelArts

一个账号最多创建10个Notebook。否更多信息，请参见创建Notebook实例。 Standard推理部署在线服务单个账号最多可创建20个在线服务。是提交工单申请提升配额更多信息，请参见部署在线服务。 Standard推理部署批量服务单个账号最多可创建1000个批量服务。否更多信息，请参见部署批量服务。

帮助中心 > AI开发平台ModelArts > 产品介绍
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

infer_type 是 String 推理方式，取值为real-time/batch/edge。 real-time代表在线服务，将模型部署为一个Web Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 574

上一页
1
...
15
16
17
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

运行第一条Workflow - AI开发平台ModelArts

服务预测 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

将模型部署为实时推理作业 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

ModelArts Standard自动学习所创建项目一直在扣费，如何停止计费？ - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线