搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理时，要执行的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
eagle投机小模型训练 - AI开发平台ModelArts

如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
eagle投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

ModelArts SDK不支持在训练作业和在线服务中使用。 ModelArts SDK已经集成在ModelArts开发环境Notebook中，可以直接使用，无需进行Session鉴权。登录ModelArts控制台，在“开发空间 > Notebook”中创建Notebook实例，在T

帮助中心 > AI开发平台ModelArts > SDK参考
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示“No space left on device” - AI开发平台ModelArts

（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
数据准备使用流程 - AI开发平台ModelArts

量。帮助用户提高数据的质量。提供图像、文本、音频、视频等多种格式数据的预览，帮助用户识别数据质量。提供对数据进行多维筛选的能力，用户可以根据样本属性、标注信息等进行样本筛选。提供12+标注工具，方便用户进行精细化、场景化和专业化的数据标注。提供基于样本和标注结果进行特征分析，帮助用户整体了解数据的质量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
开发用于预置框架训练的代码 - AI开发平台ModelArts

被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中，demo-code为OBS存放代码路径的最后一级目录，用户可以根据实际修改。请注意不要将训练数据放在代码目录路径下。训练数据比较大，训练代码目录在训练作业启动后会下载至后台，可能会有下载失败的风险。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
训练数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
ECS中上传新镜像 - AI开发平台ModelArts

${dockerfile_image_name}：在step5中，使用Dockerfile创建的新镜像名称。 <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
镜像方案说明 - AI开发平台ModelArts

k源码。若Notebook环境挂载了SFS Turbo，则源码文件会下载至SFS Turbo中。最后选择Notebook中“保存镜像”，则可以得到新的镜像环境。若用户希望修改源码，则需要在Notebook环境中直接访问并编辑源码文件。父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像

总条数： 2239

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线