搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

桶的目录结构如下。 <bucket_name> |──llm_train # 解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

桶的目录结构如下。 <bucket_name> |──llm_train # 解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
SFT全参微调训练 - AI开发平台ModelArts

的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。提交训练作业，训练完成后，生成的权重文件自动保存在SFS Turbo中，保存路径为：/home/ma-user/work/llm_train/saved_dir_for

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。提交训练作业，训练完成后，生成的权重文件自动保存在SFS Turbo中，保存路径为：/home/ma-user/work/llm_train/saved_dir_for

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
创建生产训练作业 - AI开发平台ModelArts

配置训练作业基本信息在创建训练作业页面填写训练作业基本信息。表1 创建训练作业的基本信息参数名称说明名称必填，训练作业的名称。系统会自动生成一个名称，可以根据业务需求重新命名，命名规则如下：支持1~64位字符。可以包含大小写字母、数字、中划线（-）或下划线（_）。描述训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。提交训练作业，训练完成后，生成的权重文件自动保存在SFS Turbo中，保存路径为：/home/ma-user/work/llm_train/saved_dir_for

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

定一些。测试时需要执行mpirun的节点到hostfile中的节点间有免密登录，设置SSH免密登录方法如下：客户端生成公私钥。执行如下命令，在本地客户端生成公私钥（一路回车默认即可）。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

在弹出的对话框中，设置训练作业相关参数，详细参数说明请参见表1。表1 训练作业配置参数说明参数说明 Job Name 训练作业的名称。系统会自动生成一个名称，您可以根据业务需求重新命名，命名规则如下：支持1~64位字符。并包含大小写字母、数字、中划线（-）或下划线（_）。 Job Description

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
运行第一条Workflow - AI开发平台ModelArts

数据类型：系统会根据您的数据集，匹配到相应的数据类型。例如本案例使用的数据集，系统匹配为“图片”类型。数据集输出位置：用来存放输出的数据标注的相关信息，或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录，且此目录不能与输入位置一致，也不能为输入位置的子目录。数据集输入位置：用来存放源数据集信息，例如本案例中从AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
创建ModelArts数据选择任务 - AI开发平台ModelArts

据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤 - AI开发平台ModelArts

止，则推荐参照创建Notebook并执行性能诊断任务创建cpu规格的notebook进行性能分析，节省NPU计算资源。完成分析后，可以查看生成的html文件来进行快速的调优，html文件详情请参考advisor分析报告html文件详解。下面以开发环境Notebook为例介绍一个典型的性能调优案例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
SFT全参微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
创建ModelArts数据集 - AI开发平台ModelArts

据。此位置不能和OBS数据源中的文件路径相同或为其子目录。创建表格数据集后，在存储路径下会自动生成以下4个目录。 annotation：版本发布目录，每次发布版本，会在此目录下生成和版本名称相同的子目录。 data：数据存放目录，导入的数据会放在此目录。 logs：日志存放目录。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

fit(inputs=[input_data], job_name="cifar10-dis") 参数解释： inputs：可选参数，一个list，每个元素都是步骤2中生成的实例； job_name：可选参数，训练任务名，便于区分和记忆。本地分布式训练任务开始后，SDK会依次帮助用户完成以下流程：将训练脚

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
创建ModelArts数据校验任务 - AI开发平台ModelArts

据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据

总条数： 899

上一页
1
...
40
41
42
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

运行第一条Workflow - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线