检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业容错检查 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 AI应用健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。
配置了合理的服务部署超时时间,服务还是部署失败,无法启动 服务部署成功的标志是模型启动完成,如果没有配置健康检查,就无法检测到模型是否真实的启动。 在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。
针对物体检测作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求、检查标注框是否符合要求(物体检测)。 针对预测分析作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、预测分析作业失败的排查思路。
原因分析 出现该问题的可能原因如下: 桶中的对象不存在,请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。 处理方法 检查OBS路径及内容格式是否正常。 必现的问题,使用本地Pycharm远程连接Notebook调试。
视频数据集无法显示和播放视频 若无法显示和播放视频,请检查视频格式类型,目前只支持MP4格式。 父主题: Standard数据管理
*” 用户请按照以下思路进行逐步排查: 检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。
SSH登录机器后,检查NPU设备检查。
图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。
Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。
SSH登录机器后,检查NPU设备检查。
SSH登录机器后,检查NPU设备检查。
SSH登录机器后,检查NPU设备检查。
SSH登录机器后,检查NPU设备检查。
Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
SSH登录机器后,检查NPU设备检查。
SSH登录机器后,检查NPU设备检查。
解决方案1 检查代码,检查是否有参数中未传入“master_ip”和“rank”参数等问题。 问题现象2 分布式训练的日志中,发现有的节点含有GDR信息,而有的节点无GDR信息,导致卡死的原因可能为GDR。
Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。