搜索_华为云

部署在线服务 - AI开发平台ModelArts

否 String 在线服务实例部署的虚拟私有云ID，默认为空，此时ModelArts会为每个用户分配一个专属的VPC，用户之间隔离；如需要在服务实例中访问名下VPC内的其他服务组件，则可配置此参数为对应VPC的ID。 VPC一旦配置，不支持修改。当vpc_id与cluster_id一同配置时，只有专属集群参数生效。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

快速配置ModelArts委托授权章节中介绍的一键式自动授权方式创建的委托的权限比较大，基本覆盖了依赖服务的全部权限。如果华为云账号已经能满足您的要求，不需要创建独立的IAM用户，您可以跳过本章节，不影响您使用ModelArts服务的其他功能。 ModelArts作为一个完备的AI开发平台，支持用户对

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统使用Python封装API的方式切换操作系统切换操作系统需满足以下条件：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

本文介绍开发环境场景下子账号所需的基本使用权限，您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用Notebook进行调试，数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。权限清单权限表1 开发环境所需权限业务场景依赖的服务依赖策略项支持的功能配置建议开发环境实例生命周期管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档三方大模型，包名：AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练(ModelLink)

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
在推理生产环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

控制等功能，可以帮助您安全的控制云服务资源的访问。如果华为账号已经能满足您的要求，不需要通过IAM对用户进行权限管理，您可以跳过本章节，不影响您使用ModelArts服务的其他功能。 IAM是提供权限管理的基础服务，无需付费即可使用，您只需要为您账号中的资源进行付费。通过IAM

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
增量模型训练 - AI开发平台ModelArts

Learning）是机器学习领域中的一种训练方法，它允许人工智能（AI）模型在已经学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的训练数据，缓解了存储资源有限的问题；另一方面，增量训练节约了重新

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
在推理生产环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
查询训练作业版本列表 - AI开发平台ModelArts

调用失败时的错误信息。调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
设置断点续训练 - AI开发平台ModelArts

卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkpoint的机制是：在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

gpu_type 容器使用的GPU的型号。 node级别指标 cluster_id 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
Eagle投机小模型训练 - AI开发平台ModelArts

Eagle的模型大小及结构，与基模型的某一层完全相同，这使得它的大小远远小于其基模型。解决了对于部分原始LLM模型，找不到合适的投机模型的问题。投机小模型训练端到端示例本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档三方大模型，包名：AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练(ModelLink)

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档三方大模型，包名：AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练(ModelLink)

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.912版本说明 - AI开发平台ModelArts

如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档三方大模型，包名：AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练(ModelLink)

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

从小到大的顺序进行排序，取第99%的值作为TP99的值。 ≥ms ModelArts在线服务 1分钟 tp_999 TP99.9 上1分钟内，统计该请求每次响应所消耗的时间，并将这些时间按从小到大的顺序进行排序，取第99.9%的值作为TP99.9的值。 ≥ms ModelArts在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
训练作业容错检查 - AI开发平台ModelArts

补充健康的计算节点至专属资源池。（该功能即将上线）容错检查详细介绍请参考：开启容错检查检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

容器名称。 project_id 用户所属的账号的project id。 user_id 提交作业的用户所属的账号的user id。 npu_id 昇腾卡的ID信息，比如davinci0（即将废弃）。 device_id 昇腾系列AI处理器的Physical ID。 device_type

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控

总条数： 1417

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署在线服务 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.3.912版本说明 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线