搜索_华为云

Yaml配置文件参数配置说明 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 max_steps 5000 非必填。表示训练step迭代次数。会自动计算得出。 save_steps 5000

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

/home/ma-user/AscendCloud-OPP-*.zip RUN pip install /home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any.whl RUN pip install /home/ma-user/cann_ops-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
查询数据集导出任务列表 - AI开发平台ModelArts

finished_sample_count Integer 已完成的样本数量。 path String 导出的输出路径。 progress Float 任务当前进度百分比。 status String 任务状态。 task_id String 任务ID。 total_count Integer 导出任务的总数量。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
分页查询智能任务列表 - AI开发平台ModelArts

model_name String 模型名称。 model_version String 模型版本。 progress Float 任务当前进度百分比。 result Result object 任务结果。 status Integer 任务状态。 task_id String 任务ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

was shot, such as close-ups. Do not appear 'seems', 'may' and other words, need to be sure of the description, do not need to be ambiguous description

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
创建Notebook实例 - AI开发平台ModelArts

响应Body参数参数参数类型描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建数据集导出任务 - AI开发平台ModelArts

finished_sample_count Integer 已完成的样本数量。 path String 导出的输出路径。 progress Float 任务当前进度百分比。 status String 任务状态。可选值如下： INIT：初始化 RUNNING：运行中 FAILED：已失败 SUCCESSED：已完成

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
创建Standard专属资源池 - AI开发平台ModelArts

户可以根据自己的实际情况进行选择。虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境，提升用户资源的安全性，简化用户的网络部署。登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
查询服务详情 - AI开发平台ModelArts

pending: 待启动，仅在线有这个状态。 waiting: 资源排队中，仅在线服务有这个状态。 progress Integer 部署进度，当状态是deploying时返回。 error_msg String 错误信息，当status为failed时，返回这个信息注明失败原因。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
依赖和委托 - AI开发平台ModelArts

obs:object:PutObject 管理OBS中的数据集标注OBS数据创建数据管理作业管理表格数据集 DLI dli:database:displayAllDatabases dli:database:displayAllTables dli:table:describeTable 在数据集中管理DLI数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
约束与限制 - AI开发平台ModelArts

nd训练场景下，默认要求填写作业日志在OBS的存放路径，其他资源的训练场景下，永久保存日志开关需要用户手动开启。仅专属资源池支持使用Cloud Shell登录训练容器，且训练作业必须处于“运行中”状态。在训练管理的“创建算法”页面，来源于AI Gallery中订阅的算法不支持另存为新算法。

帮助中心 > AI开发平台ModelArts > 产品介绍
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查询数据集详情 - AI开发平台ModelArts

0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集，数据库名字。 input String 表格数据集，HDFS路径。例如/datasets/demo。 ip String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 322

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询数据集导出任务列表 - AI开发平台ModelArts

分页查询智能任务列表 - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

创建数据集导出任务 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线