AI开发平台MODELARTS-运行训练代码,出现dead kernel,并导致实例崩溃

时间:2024-04-24 14:55:14

运行训练代码,出现dead kernel,并导致实例崩溃

在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。

出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属资源池来运行此训练代码。已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。

support.huaweicloud.com/trouble-modelarts/modelarts_13_0114.html