AI开发平台MODELARTS-运行训练代码,出现dead kernel,并导致实例崩溃
运行训练代码,出现dead kernel,并导致实例崩溃
在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。
出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。
如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属资源池来运行此训练代码。
已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。
- ModelArts开发环境_开发环境简介_开发环境怎么使用
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_AI应用_部署服务-华为云
- ModelArts模型训练_模型训练简介_如何训练模型
- 应用托管服务_零代码改造上云_云应用引擎CAE-华为云