随着华为云的快速发展,我们已经有了上千万的内存条和硬盘,硬件(内存、硬盘等)故障已经变成影响云服务可靠性的关键因素之一。硬件故障预测就是这个背景下的关键算法问题,即基于基础属性、日志、故障单等海量信息,利用机器学习/深度学习算法提前一段时间预测故障,并结合后续处置措施(热迁移、隔离、更换等),在用户无感的情况下实现云服务长期可靠运行。
随着华为云的快速发展,我们已经有了上千万的内存条和硬盘,硬件(内存、硬盘等)故障已经变成影响云服务可靠性的关键因素之一。硬件故障预测就是这个背景下的关键算法问题,即基于基础属性、日志、故障单等海量信息,利用机器学习/深度学习算法提前一段时间预测故障,并结合后续处置措施(热迁移、隔离、更换等),在用户无感的情况下实现云服务长期可靠运行。