搜索_华为云

设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型训练存储加速 - AI开发平台ModelArts

模型训练存储加速针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战，华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案，如下图所示。 SFS Turbo HPC型支持和OBS数据联动，您可以通过SFS Turbo H

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
调用MaaS部署的模型服务 - AI开发平台ModelArts

调用MaaS部署的模型服务在ModelArts Studio大模型即服务平台部署成功的模型服务支持在其他业务环境中调用。约束限制只有“状态”是“运行中”的模型服务才支持被调用。步骤一：获取API Key 在调用MaaS部署的模型服务时，需要填写API Key用于接口的鉴权认证。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建Workflow服务部署节点 - AI开发平台ModelArts

创建Workflow服务部署节点功能介绍通过对ModelArts服务管理能力的封装，实现Workflow新增服务和更新服务的能力。主要应用场景如下：将模型部署为一个Web Service。更新已有服务，支持灰度更新等能力。属性总览您可以使用ServiceStep来构建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
查询算法详情 - AI开发平台ModelArts

查询算法详情功能介绍根据算法id查询指定算法。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/algorithms/{algorithm_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练）本节通过调用一系列API，以训练模型为例介绍ModelArts API的使用流程。概述使用PyTorch框架创建训练作业的流程如下：调用认证鉴权接口获取用户Token，在后续的请求中需要将Token放到请求消息头中作为认证。调

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
增量模型训练 - AI开发平台ModelArts

增量模型训练什么是增量训练增量训练（Incremental Learning）是机器学习领域中的一种训练方法，它允许人工智能（AI）模型在已经学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
自动模型优化介绍 - AI开发平台ModelArts

自动模型优化介绍 ModelArts训练支持超参搜索功能，自动实现模型超参搜索，为您的模型匹配最合适的超参。在模型训练过程中，有很多超参需要根据任务进行调整，比如learning_rate、weight_decay等，这一工作往往需要一个有经验的算法工程师花费一定精力和大量时间

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
手动部署推理服务 - AI开发平台ModelArts

手动部署推理服务前提条件已经完成资源购买。约束限制脚本中的镜像是在西南-贵阳一区域，请在西南-贵阳一区域上部署推理服务。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。如果驱动版本不是24.1.0，请先升级驱动和对应固件。 npu-smi info -t board

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 $ma-cli dli-job -h Usage: ma-cli dli-job [OPTIONS] COMMAND [ARGS]... DLI spark job submission and query job

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend）本案例介绍如何从0到1制作Ascend容器镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MindSpore，训练使用的资源是专属资源池的Ascend芯片。场景描述目标：构建安

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍如何进行推理精度测试，数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen。前提条件确保容器可以访问公网。 Step1 配置精度测试环境获取精度测试代码。精度测试代码存放在代码包AscendC

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

moondream2基于Lite Server适配PyTorch NPU推理指导方案概览本文档从模型部署的环境配置、模型转换、模型推理等方面进行介绍moondream2模型在ModelArts Lite Server上部署，支持NPU推理场景。本方案目前仅适用于部分企业客户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
开发环境的应用示例 - AI开发平台ModelArts

开发环境的应用示例本节通过调用一系列API，以创建开发环境实例为例介绍ModelArts API的使用流程。概述创建开发环境实例的流程如下：调用认证鉴权接口获取用户Token，在后续的请求中需要将Token放到请求消息头中作为认证。调用查询支持的镜像列表接口查看开发环境的镜像类型和版本。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
查询算法列表 - AI开发平台ModelArts

查询算法列表功能介绍查询算法列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/algorithms 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
MoXing常用操作的样例代码 - AI开发平台ModelArts

MoXing常用操作的样例代码读写操作读取一个OBS文件。例如读取“obs://bucket_name/obs_file.txt”文件内容，返回string（字符串类型）。 1 2 import moxing as mox file_str = mox.file.read(

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令

总条数： 449

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置断点续训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

创建Workflow服务部署节点 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

开发环境的应用示例 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线