搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

根据量化方式选择对应参数，可选awq，smoothquant，gptq。 distributed_executor_backend是开启多进程服务方式，选择ray开启。 model：模型启动模式，可选vllm，openai或hf，hf代表huggingface。 tasks：评测数据集任务，比如openllm。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

输入位置的子目录。图1 下载详情完成参数填写，单击“确定”，自动跳转至AI Gallery个人中心“我的下载”页签，单击按钮，查看下载进度，等待5分钟左右下载完成，单击展开下载详情，可以查看该数据集的“目标位置”。步骤四：创建新版自动学习图像分类项目确保数据集创建完成且可

 帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

输入位置的子目录。图1 下载详情完成参数填写，单击“确定”，自动跳转至AI Gallery个人中心“我的下载”页签，单击按钮，查看下载进度，等待5分钟左右下载完成，单击展开下载详情，可以查看该数据集的“目标位置”。步骤四：创建新版自动学习图像分类项目确保数据集创建完成且可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
删除Notebook实例 - AI开发平台ModelArts

响应Body参数参数参数类型描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ckend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。高阶参数说明： --enable-prefix-caching：如果prompt的公

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
停止Notebook实例 - AI开发平台ModelArts

响应Body参数参数参数类型描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
启动Notebook实例 - AI开发平台ModelArts

响应Body参数参数参数类型描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例详情 - AI开发平台ModelArts

响应Body参数参数参数类型描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

称具有可识别性。描述：描述数据集详细信息。图1 下载详情确认无误后单击右下角“确定”。系统会跳转到我的下载页面，单击按钮，查看下载进度，等待数据集下载完成（下载完成大约需要5分钟，请耐心等待）。单击展开下载详情，可以查看该数据集的“目标位置”。查看数据集是否已导入ModelArts。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

推理方式，取值为real-time/batch/edge。 real-time代表在线服务，将模型部署为一个Web Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。 edge表示边缘服务，通过华为云智

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

ckend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。推理启动脚本必须名为run_vllm.sh，不可修改其他名称。 hostname和port也必须分别是0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
非分离部署推理服务 - AI开发平台ModelArts

评估推理资源。运行如下命令，返回NPU设备信息可用的卡数。 npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用，是否有对应运行的进程如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务

总条数： 311

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

删除Notebook实例 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线