Memory Failure Prediction @ WWW Cup 2025 邀你来参加!

万卡集群多部件,高耦合,故障发生牵一发动全身,高可用性是业界难题。WWW 2025 于悉尼举办,华为云联合柏林工业大学以及中国科学技术大学发布 WWW Cup: Memory Failure Prediction Challenge,冠军奖金 4.5 万元,邀你来参加,共同探索数据中心集群稳定性创新方案。

 

images_173751387844970

 

背景:

随着人工智能、大数据、云计算等技术的飞速发展,云数据中心硬件可靠性已成为当前业界广泛关注的热点。比如在大规模分布式训练场景中,单个节点的硬件故障可能导致整个训练任务中断,甚至引发数据丢失或模型损坏。这不仅会造成大量计算资源和时间的浪费,还可能严重影响模型训练的收敛性和最终性能,硬件故障也是当前大规模集群运营中面临的最关键问题。

内存作为计算机系统中关键部件,计算机中所有程序的运行都在内存中进行,其稳定性与可靠性直接关系到整个系统的运行效率和数据安全,尤其是高带宽存储器技术的应用,更是将内存的重要性推向了一个新的高度。

 

PIC_V2.png

 

赛事:

Memory Failure Prediction @ WWW Cup 2025 发布了首个包含宏观和微观比特信息的大规模数据中心内存运行状态数据集 (SmartMem),并且根据实际应用构建了相应的评测流程,旨在汇聚全球数据科学家和机器学习领域的专家,共同探索和开发出能够有效应对开放世界机器学习问题的先进算法和技术,以提高故障预测的准确性和可信性。参赛者基于提供的内存静态信息、内存故障地址数据、内存纠错信息,以及故障标签数据,对内存故障机理进行探索,挖掘出与内存故障相关的特征,并构建出一个能够准确预测是否会发生内存故障的模型。

 

Snipaste_2025-01-22_11-04-48.png

 

ACM International World Wide Web Conference(WWW会议是信息检索、推荐系统领域顶级会议 (CCF-A),从 1994 年开始每年举办,今年将会在 4 28 号在美丽的悉尼召开。本次比赛不仅提供最高 4.5 万人民币奖金,优胜团队还将受邀与来自业界和学术界的专家们在 workshop 中交流讨论。通过本次竞赛,我们期待推动硬件故障预测技术的突破,为构建更加稳定、可靠的算力基础设施系统提供强有力的支持,同时也为开放世界机器学习领域的研究和实践积累宝贵经验。

 

Snipaste_2025-01-22_11-06-10.png

 

数据集以及入门工具包与基线均已发布,初赛报名提交截止时间 3 1 号,走过路过不要错过哟!

 

报名链接:

hwcloud-ras.github.io

www.codabench.org

 

参考链接:

[1] The Llama 3 Technical Report
[2] www.semianalysis.com
[3] Yu et.al, "Investigating Memory Failure Prediction Across CPU Architectures", DSN 2024