搜索_华为云

执行训练任务（历史版本） - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
分离部署推理服务 - AI开发平台ModelArts

${base_image}为基础镜像地址。 ${image_name}为推理镜像名称，可自行指定。运行完后，会生成推理所需镜像。如果推理需要使用npu加速图片预处理，需要安装torchvision_npu，可放到镜像制作脚本里面。内容如下： git clone https://gitee.com/ascend/vision

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
推理性能测试 - AI开发平台ModelArts

benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理性能测试 - AI开发平台ModelArts

benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
查看诊断报告 - AI开发平台ModelArts

查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据，如集群计算、通信和下发的耗时，可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序，从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
执行训练任务（推荐） - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

uUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表2 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
开发用于预置框架训练的代码 - AI开发平台ModelArts

务指定路径，输入和输出数据需要配置2个地方：训练代码中需解析输入路径参数和输出路径参数。ModelArts Standard推荐以下方式实现参数解析。 1 2 3 4 5 6 7 8 9 10 import argparse # 创建解析 parser = argparse

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
查看训练作业日志 - AI开发平台ModelArts

存训练日志。图6 下载日志搜索关键字用户可以在系统日志右上角的搜索框搜索关键字，如图7所示。图7 搜索关键字系统支持高亮关键字并实现搜索结果间的跳转。搜索功能仅支持搜索当前页面加载的日志，如果日志加载不全（请关注页面提示）则需要下载或者通过打开全量日志访问链接进行搜索。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
自定义模型规范 - AI开发平台ModelArts

非必选文件，环境配置文件，定义了项目依赖的python包。AI Gallery提供了基础镜像的依赖环境，如果要添加自定义依赖项，可通过requirements.txt文件实现。基础镜像包含python、PyTorch、cuda（GPU）、CANN（NPU）。自定义模型规范（推理）当托管自定义模型到AI Gallery时，如果模型要支持AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
上传远端文件至JupyterLab - AI开发平台ModelArts

上传远端文件至JupyterLab 在Notebook的JupyterLab中，支持通过远端文件地址下载文件。要求：远端文件的URL粘贴在浏览器的输入框中时，可以直接下载该文件。通过JupyterLab打开一个运行中的Notebook。单击JupyterLab窗口上方导航栏的ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

练、PPO强化训练方案。 DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
分离部署推理服务 - AI开发平台ModelArts

${base_image}为基础镜像地址。 ${image_name}为推理镜像名称，可自行指定。运行完后，会生成推理所需镜像。如果推理需要使用npu加速图片预处理，需要安装torchvision_npu，可放到镜像制作脚本里面。内容如下： git clone https://gitee.com/ascend/vision

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
Lite Server资源开通 - AI开发平台ModelArts

如果界面无可选规格，请联系华为云技术支持申请开通。系统盘系统盘和规格有关，选择支持挂载的规格才会显示此参数。可以在创建完成后在云服务器侧实现数据盘挂载或系统盘的扩容，建议取值至少100GB。表4 镜像配置参数说明参数名称说明镜像公共镜像常见的标准操作系统镜像，所有用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
ModelArts权限管理基本概念 - AI开发平台ModelArts

ModelArts的大部分权限管理能力均基于统一身份认证服务（Identity and Access Management，简称IAM）来实现，在您继续往下阅读之前，强烈建议您先行熟悉IAM基本概念，如果能完整理解IAM的所有概念，将更加有助于您理解本文档。为了支持用户对Mod

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

ModelArts的大部分权限管理能力均基于统一身份认证服务（Identity and Access Management，简称IAM）来实现，在您继续往下阅读之前，强烈建议您先行熟悉IAM基本概念，如果能完整理解IAM的所有概念，将更加有助于您理解本文档。为了支持客户对Mod

帮助中心 > AI开发平台ModelArts > 产品介绍
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

练、PPO强化训练方案。 DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）

总条数： 625

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务（历史版本） - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

上传远端文件至JupyterLab - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线