搜索_华为云

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案问题现象裸金属服务器EulerOS 2.8系统下，使用yum update -y命令，导致软件NetworkManagre-config-server升级到高版本，出现SSH链接故障无法访问。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备图像分类数据 - AI开发平台ModelArts

准备图像分类数据使用ModelArts自动学习构建模型时，您需要将数据上传至对象存储服务（OBS）中。OBS桶需要与ModelArts在同一区域。数据集要求保证图片质量：不能有损坏的图片，目前支持的格式包括jpg、jpeg、bmp、png。不要把明显不同的多个任务数据放在同一个数据集内。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
配置多分支节点数据 - AI开发平台ModelArts

配置多分支节点数据功能介绍仅用于存在多分支执行的场景，在编写构建工作流节点时，节点的数据输入来源暂不确定，可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后，才会根据实际执行情况自动获取有效输出作为输入。使用案例 from modelarts import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练数据集预处理说明 - AI开发平台ModelArts

训练数据集预处理说明以 llama2-13b 举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。若未进行数据集预处理，则会自动执行 scripts/llam

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？问题现象或原因分析 Notebook实例重新启动后，公钥发生变化，OpenSSH核对公钥发出警告。解决方法在VS Code中使用命令方式进行远程连接时，增加参数"-o

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
标注图像分类数据 - AI开发平台ModelArts

标注图像分类数据由于模型训练过程需要大量有标签的图片数据，因此在模型训练之前需对没有标签的图片添加标签。通过ModelArts您可对图片进行一键式批量添加标签，快速完成对图片的标注操作，也可以对已标注图片修改或删除标签进行重新标注。请确保数据集中已标注的图片不低于100张，否

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
创建Workflow数据集版本发布节点 - AI开发平台ModelArts

创建Workflow数据集版本发布节点功能介绍通过对ModelArts数据集能力进行封装，实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布，每个版本相当于数据的一个快照，可用于后续的数据溯源。主要应用场景如下：对于数据标注这

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
网卡名称错误 - AI开发平台ModelArts

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法

总条数： 2260

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练的数据集预处理说明 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

标注图像分类数据 - AI开发平台ModelArts

创建Workflow数据集版本发布节点 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线