搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
日志提示“Please set the train - AI开发平台ModelArts

train_url to an empty obs directory”。原因分析对于不支持断点训练的模型，若选择训练输出路径不是空目录，会出现该报错。处理方法对于不支持断点训练的模型，请您将模型的输出路径train_url设置为空目录。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
团队标注时，为什么团队成员收不到邮件？ - AI开发平台ModelArts

团队标注时，为什么团队成员收不到邮件？团队标注时，成员收不到邮件的可能原因如下：当数据集中的所有数据已完成标注，即“未标注”数据为空时，创建的团队标注任务，因为没有数据需要标注，不会给团队成员发送标注邮件。在发起团队标注任务时，请确保数据集中存在“未标注”数据。只有当创建团

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
智能标注完成后新加入数据是否需要重新训练？ - AI开发平台ModelArts

智能标注完成后，需要对标注结果进行确认。如果未确认标注结果，直接加入新数据，重新智能标注，会将待确认的数据和新加入的数据全部重新训练。如果确认标注结果后，再加入新数据，只重新训练标注新的数据。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

INFO: root: Predict valid number is 0. 原因分析该日志表示数据集中的有效样本量为0，可能有如下原因：数据未标注。标注的数据是不符合规格的（如目标检测算法要求标注为矩形框，但是提供数据标注为非矩形框）。处理方法请您检查数据是否已标注，或检查数据标注是否符合算法要求。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
自动学习为什么训练失败？ - AI开发平台ModelArts

自动学习为什么训练失败？当自动学习项目训练失败时，请根据如下步骤排除问题。进入当前账号的费用中心，检查是否欠费。是，建议您参考华为云账户充值，为您的账号充值。否，执行2。检查存储图片数据的OBS路径。是否满足如下要求：此OBS目录下未存放其他文件夹。文件名称中无特殊字符

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
ModelArts标注完样本集后，如何保证退出后不再产生计费？ - AI开发平台ModelArts

ModelArts标注完样本集后，如何保证退出后不再产生计费？标注样本集本身不计费，数据集存储在OBS中，收取OBS的费用。建议您前往OBS控制台，删除存储的数据和OBS桶，即可停止收费。父主题：计费相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
模型发布失败 - AI开发平台ModelArts

出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“AI应用管理>AI应用”页面，在AI应用列表中找到自动学习任务中自动创建的模型，自动学习产生的模型都是以“exeML-”开头的。单击

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
录制Profiling - AI开发平台ModelArts

PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

6.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
录制Profiling - AI开发平台ModelArts

PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

问题现象原因分析执行VS Code Remote SSH连接失败。解决方法单击弹窗右上角关闭弹窗，查看OUTPUT中的具体报错信息，并参考后续章节列举的几种常见报错解决问题。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
模型NPU卡数取值表 - AI开发平台ModelArts

模型NPU卡数取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推表1 模型NPU卡数取值表支持模型支持模型参数量文本序列长度训练类型 Zero并行规格与节点数 llama3 70B cutoff_len=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
Standard模型部署 - AI开发平台ModelArts

多功能的镜像和模型统一纳管。通常AI模型部署和规模化落地非常复杂。例如，智慧交通项目中，在获得训练好的模型后，需要部署到云、边、端多种场景。如果在端侧部署，需要一次性部署到不同规格、不同厂商的摄像机上，这是一项非常耗时、费力的巨大工程，ModelArts支持将训练好的模型一键

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考支持的模型列表和权重文件。在创建的OBS桶下创建文件夹用以存放权重文件，例如在桶中创建文件夹。将下载的权重文件上传至OBS中，得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作

总条数： 2232

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

日志提示“Please set the train - AI开发平台ModelArts

团队标注时，为什么团队成员收不到邮件？ - AI开发平台ModelArts

智能标注完成后新加入数据是否需要重新训练？ - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

自动学习为什么训练失败？ - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

ModelArts标注完样本集后，如何保证退出后不再产生计费？ - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

模型NPU卡数取值表 - AI开发平台ModelArts

Standard模型部署 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线