检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.909)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.907)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 mc2融合算子报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.912)
规范请参见标注格式章节。 导入方式选择manifest时,需要满足manifest文件的规范。 数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。 导入已标注的文件,导入完成后,请检查您导入的数据是否为已标注状态。 表格数据集从OBS导入操作
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 mc2融合算子报错 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.909)
异常 模型文件xxx大于5G,无法导入。 Model file %s is larger than 5G and cannot be imported. 模型文件xxx大于5G,请精简模型文件后重试,或者使用动态加载功能进行导入。FAQ 异常 因系统内部原因创建OBS桶失败,请联系技术支持。
创建模型任务下发成功,但最终模型创建失败。需要从以下几个方面进行排查: 在模型详情页面,查看“事件”页签中的事件信息。根据事件信息分析模型失败原因,进行处理。 如果模型状态为“构建失败”,可以在模型详情页面,查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因,根据构建失败的原因进行排查处理。
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
创建数据集时直接从设置的数据导入路径中自动同步数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。 图2 在数据集详情页中导入数据 在数据集列表页面
fest文件导入规范说明。 导入“物体检测”类型数据集前,您需要保证标注文件的标注范围不超过原始图片大小,否则可能存在导入失败的情况。 表1 不同类型数据集支持的导入方式 数据集类型 标注类型 OBS目录导入 Manifest文件导入 图片 图像分类 支持 可以导入未标注或已标注数据