研究方向

研究方向

云可用性工程Lab秉承开放共赢的理念,愿意与学术界和工业界各位精英就以下研究方向合作,如有意向请联系luodaida@huawei.com

云可用性工程Lab秉承开放共赢的理念,愿意与学术界和工业界各位精英就以下研究方向合作,如有意向请联系luodaida@huawei.com

AI系统可靠性

AI系统可靠性

随着大模型时代的到来,AI应用对算力需求呈指数级增长。团队聚焦于构建高性能、高可靠性的AI集群基础设施,致力于打造可靠稳健的大规模AI计算引擎,通过前沿技术创新突破,确保大规模AI计算任务的持续稳定运行。关键技术包括训练状态保存与快速恢复、容错训练与弹性训练、故障诊断与定界、故障模式分析与仿真等。

关键技术

训练状态保存与快速恢复

训练状态保存与快速恢复是AI集群可靠训练的关键技术,需要支持异步快速分布式存储ckpt,快速加载保存状态,自动化恢复过程,并支持集群横向扩展,训练状态保存和恢复能适应集群变化,这些技术可大幅提高训练可靠性和迭代效率,是实现稳定持续训练的关键所在。

容错训练

容错训练的目标是让AI系统能够在出现故障或异常情况时保持稳定运行,通过引入噪声数据、丢失数据、网络延迟等模拟故障场景进行训练,提高系统鲁棒性,并采用参数冗余训练、非一致性训练等机制,确保单点故障不会导致整个系统瘫痪。

弹性训练

弹性训练的目标是让AI系统能够动态适应环境变化,快速响应需求变化,通过进化算法、强化学习等技术让系统自主学习和调整行为策略,使用节点状态迁移、弹性扩缩容、进程级重启等技术实现资源弹性伸缩,根据负载情况动态分配计算、存储等资源,支持快速扩容和缩容,提高资源利用效率和成本控制能力。

亚健康管理

亚健康管理

云计算系统中广泛存在着亚健康问题,即硬件或系统处于非正常工作状态,但尚未引发显著故障。这些隐藏性缺陷不仅影响云服务的成本,也可能导致客户体验下降甚至业务中断,是云计算中的重大隐患。团队致力于构建智能化的云计算亚健康管理体系,通过前沿技术创新,实现亚健康全面感知、自动诊断和快速修复,提升云服务可靠性和可用性,为用户带来更优质的使用体验。

关键技术

亚健康检测与恢复

亚健康的检测与恢复技术是亚健康管理的关键技术,通过建立亚健康检测和恢复体系,及早发现系统中的异常状态,将重大隐患消弭于无形。通过异常检测技术识别系统中的亚健康,再通过根因分析的手段定位亚健康产生的原因,最终自动决策选择合适的处理手段,最终实现系统可靠性和可用性的提升。

根因分析与可解释AI

亚健康故障具有隐蔽、界限模糊的特点,因此根因分析与可解释AI是亚健康检测应用于实际场景时不可或缺的能力。通过自动分析亚健康传播的链路、模型解释亚健康检测结果、模型自适应嵌入业务知识,使算法在不同的场景下均能产生足以令人信服的结果,以更好地配合运维工程师完成亚健康管理。

亚健康故障注入

亚健康故障注入是评价亚健康检测能力的关键技术。由于亚健康故障在真实场景下较为稀缺,通过真实数据往往难以验证检测能力在不同场景下的完备性,因此必需通过亚健康注入技术来保证算法的可靠性。亚健康注入技术涉及更加隐蔽、模糊的故障,相较于传统的故障注入技术更加具有挑战性。

硬件故障智能管理

硬件故障智能管理

云计算基础设施的稳定性是大数据和人工智能等产业发展的重要保障。随着数据中心规模的不断扩大,硬件设备种类繁多,云计算服务的可用性、可靠性、性能、效率、安全性和可持续性变得至关重要。团队致力于推进数据中心硬件故障的智能化管理,通过跨领域知识的融合创新,构建自主、前瞻、全面的智能云底座,为AI时代的云计算服务提供更加稳定可靠的基础设施支撑。

关键技术

智能故障预测

在当今大规模数据中心中内存,硬盘等硬件故障问题频发,导致服务器乃至整个IT基础设施稳定性,可靠性下降。智能故障预测的目标是通过对硬件微观层面故障数据进行学习和挖掘,构建硬件故障预测系统,通过提前发现与处置,提高云计算基础设施稳定性。

自动故障诊断

自动故障诊断的目标是通过自动化手段来识别和定位系统或设备中出现的故障。随着系统规模的不断扩大,传统的依靠人工排查故障的方法已变得不切实际,自动故障诊断技术通过对系统及硬件数据的分析与诊断,快速定位故障设备,可大大降低因故障导致的停机时间,提升系统可靠性及稳定性。

故障自愈及处置

通过对硬件故障的诊断分析,在不影响服务稳定性情况下,系统自动进行故障隔离与处置,如硬件替换等,可大幅提升传统人为处置时效性,提升系统稳定性。

静默数据错误

静默数据错误

静默数据错误(Silent Data Corruption, SDC)是指数据在传输、存储和处理过程中遭到修改或损坏,却不会引发任何显著的系统错误或警报。这种"无声"的数据错误极难被及时发现和定位,最终可能导致计算结果的偏差甚至严重的决策失误,为应对这一挑战,团队致力于构建可靠稳定的数据计算基础设施,确保数据在全生命周期中的安全与完整性,开启数据可靠性的新纪元。

关键技术

SDC测试用例设计

设计SDC测试用例的目标是通过离线或在线地运行测试用例,能够快速、准确地发现SDC故障机器。通过计算机体系结构仿真与故障硬件分析,探究SDC的出现机理与规律,进而有针对性地设计SDC测试用例,并且在保证测试覆盖率的前提下不断提升测试用例的运行效率。

在线测试用例编排调度

SDC测试用例在线调度的目标是在不影响现网运行的前提下,基于具体的负载类型、硬件种类、监控指标,通过运筹优化与时序预测算法,智能地在线选择、编排SDC测试用例,充分利用空闲的计算资源,实现SDC测试用例的在线运行。

SDC智能定界定位

SDC智能定界定位的目标是在检测、发现SDC故障后,基于运行日志、监控指标,通过针对日志文本的关键信息提取分析、分类识别算法,智能快速地实现SDC故障定位,将疑似的故障组件范围最小化,提升SDC故障的处理效率。

形式化验证

形式化验证

随着云计算业务规模快速增长,系统复杂性不断增加。团队致力于为云服务提供安全、稳定、高质量的保证,通过在最顶层的架构设计时采用形式化验证,将安全、可靠作为原始出发点,提升系统级可靠性,以证明系统的设计和实现符合预定的属性和要求。针对架构/协议的形式化验证,需要综合运用验证语言、模型检查、符号推理、定理证明等关键技术。

关键技术

模型检查

研究模型检查算法,如状态空间探索、图遍历算法等,提高模型检查的效率和可扩展性,使其能够应用于更大规模的系统;

定理证明

自动和交互式定理证明技术,如Coq、Isabelle等,提供更强大的证明能力,以验证复杂的系统属性;

自动化和工具集成

致力于开发和集成自动化的形式化验证工具,无缝集成上述工具到现有的软件开发流程中,帮助开发人员在早期发现潜在的问题,从而降低后期修复的成本和风险。

混沌工程与可靠性评估

混沌工程与可靠性评估

在万物互联的数字化时代,应用上云已然成为一种趋势,云服务稳定性关系着国计民生,为了简单、高效的评估云服务和云上应用的可用性,团队致力于基于前沿的混沌工程方法论,设计科学实验,挖掘未知故障对系统影响;主动引入故障,量化云系统的可靠性能力,帮助企业构建稳健的云上基础设施,为企业数字化转型保驾护航。

关键技术

故障模拟与仿真

云计算持续向高可靠、高性能、可维护方向发展,引入了新硬件(如NPU、SDI卡)、新架构(云原生、serverless和regionless)和新协议(ipv6,UB)等,新技术的可靠性评估验证是值得探究的课题。主要研究方向包括:新硬件、架构、协议的内生、透明、可信、可观测的自动化故障注入能力构建;基于仿真系统故障注入和影响研究;故障注入结果的自动化断言。

流量录制与回放

测试环境受限于规格、配置的不同,其验证结果不足以充分说明生产环境的实际情况。而在生产环境中引入故障,对云服务和租户应用的可靠性评估,充满了危险和不确定性。此外,因为云的弹性伸缩和敏捷开发特性,云架构也是实时变化的,进一步增加了评估难度。基于以上背景,研究方向包括:应用架构的实时感知;充分评估故障注入的影响范围,即爆炸半径;通过流量进行染色、录制和回放有效控制租户和应用的影响范围。

AI增强测试评估

随着AI和大模型的发展,AI增强测试评估成为了一个热门话题。研究方向包括:在系统中实时感知应用架构和环境、智能设计实验、自动化监控执行结果并正向反馈和基于LLM的实验报告和建议。