搜索_华为云

查看日志和性能 - AI开发平台ModelArts

iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
训练启动脚本说明和参数配置 - AI开发平台ModelArts

copy_parallel(local_data_dir, obs_data_dir) 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
创建ModelArts人工标注作业 - AI开发平台ModelArts

创建好的标注作业，您可以执行智能标注、发布、修改和删除等操作。图片（图像分类、物体检测、图像分割）图2 图像分类和物体检测类型的参数表1 图片类型标注作业的详细参数参数名称说明数据集名称选择支持当前标注类型的数据集。添加标签集设置标签名称：在标签名称文本框中，输入标签名称。长度为1～1024字符。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

VOC格式的XML标注文件以及Mask图像。导出数据到OBS 登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理>数据集”，进入“数据集”管理页面。在数据集列表中，选择“图片”类型的数据集，单击数据集名称进入“数据集概览页”。在“数据集概览页”，单击右上角“导出 ”。在弹出的“导出”对话框中，填写

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
训练启动脚本说明和参数配置 - AI开发平台ModelArts

obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
附录：训练常见问题 - AI开发平台ModelArts

atch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
管理AI Gallery镜像 - AI开发平台ModelArts

排序位置和访问量，能更好的支撑用户使用该资产。在镜像详情页，选择“镜像介绍”页签，单击右侧“编辑介绍”。编辑镜像基础设置和镜像描述。表1 镜像介绍的参数说明参数名称说明基础设置中文名称显示镜像的名称，不可编辑。 README.md - 资产的README内容，支持

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
VS Code一键连接Notebook - AI开发平台ModelArts

如果密钥选择错误，则弹出提示信息，请根据提示信息选择正确密钥。图9 选择正确的密钥文件当左下角显示如下状态时，代表实例连接成功：图10 实例连接成功当弹出如下错误时，代表实例连接失败，请关闭弹窗，并查看OUTPUT窗口的输出日志，请查看FAQ并排查失败原因。图11 实例连接失败

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练的数据集预处理说明 - AI开发平台ModelArts

length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
管理AI Gallery数据集 - AI开发平台ModelArts

和访问量，能更好的支撑用户使用该资产。在数据集详情页，选择“数据集介绍”页签，单击右侧“编辑介绍”。编辑数据集基础设置和数据集描述。表1 数据集介绍的参数说明参数名称说明基础设置中文名称显示数据集的名称，不可编辑。许可证数据集遵循的使用许可协议，根据业务需求选择合适的许可证类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
VS Code ToolKit连接Notebook - AI开发平台ModelArts

安装过程预计1~2分钟，如图2所示，请耐心等待。图2 安装过程安装完成后，系统右下角提示安装完成，导航左侧出现ModelArts图标和SSH远程连接图标，表示VS Code插件安装完成。图3 安装完成提示图4 安装完成当前网络不佳时SSH远程连接插件可能未安装成功，此时无需操作，在Step4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

作业或实例上，判断是否使用了专属资源池。如判断相关作业或实例可停止，则可以停止，释放出更多的资源。单击进入专属资源池详情页面，查看作业列表。观察队头是否有其他作业在排队，如果已有作业在排队，则新建的作业需要继续等待。如果通过排查计算，发现资源确实足够，则考虑可能由于资源碎片化导致的。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

${MA_JOB_DIR}/demo-code/start_sshd.sh && your custom command 命令中的“your custom command”表示训练作业中需要执行的其他自定义命令。 “环境变量”增加“MY_SSHD_PORT = 38888”。 “配置节点间SSH免密互信”开关打开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
训练网络迁移总结 - AI开发平台ModelArts

性能会有比较好的参考。算子级的调优某些情况下如果是明显的瓶颈或者性能攻坚阶段，考虑到门槛较高，可以联系华为工程师获得帮助。精度问题根因和表现种类很多，会导致问题定位较为复杂，一般还是需要GPU上充分稳定的网络（包含混合精度）再到NPU上排查精度问题。常见的精度调测手段，包含使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
创建训练任务 - AI开发平台ModelArts

针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。创建方式：选择“自定义算法”。启动方式：选择“自定义”。镜像：选择上传的自定义镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
训练启动脚本说明和参数配置 - AI开发平台ModelArts

obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
执行SFT全参微调训练任务 - AI开发平台ModelArts

sft_70b.sh 和 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。表1 训练超参配置说明参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 2230

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

管理AI Gallery数据集 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线