关于我们

云可用性工程Lab

云计算正引领着数字化转型的新纪元,可靠性与可用性已成为衡量云服务质量的关键标准。在人工智能大模型蓬勃发展的时代,尤其是在千卡、万卡级别的训练与推理业务中,可靠性问题尤为突出,直接关系到业务的连续性和模型的竞争力。


为应对这些挑战,华为云可用性工程Lab应运而生,致力于构建业界领先的可靠性和可用性创新研究与工程能力体系,为客户带来卓越的云计算体验。我们的团队汇聚了可靠性架构师、AI算法专家和可靠性开发工程师等领域的顶尖人才。此外,我们还与全球知名高校和研究机构紧密合作,通过深度融合前沿技术,积极探索云计算可靠性和可用性的创新技术。


目前,云可用性工程Lab已在杭州、深圳、上海、成都和爱尔兰布局。我们诚挚邀请富有远见和激情的专家学者加入我们,共同开创云计算可靠性的新篇章!

研究方向

研究方向

更多研究方向
  • AI系统可靠性
  • 亚健康管理
  • 硬件故障智能管理
AI系统可靠性

随着大模型时代的到来,AI应用对算力需求呈指数级增长。团队聚焦于构建高性能、高可靠性的AI集群基础设施,致力于打造可靠稳健的大规模AI计算引擎,通过前沿技术创新突破,确保大规模AI计算任务的持续稳定运行。关键技术包括训练状态保存与快速恢复、容错训练与弹性训练、故障诊断与定界、故障模式分析与仿真等。

训练状态保存与快速恢复

容错训练

弹性训练

亚健康管理

云计算系统中广泛存在亚健康问题,即硬件或系统处于非正常工作状态,但尚未引发显著故障。这些隐藏性缺陷不仅影响云服务的成本,也可能导致客户体验下降甚至业务中断,是云计算中的重大隐患。团队致力于构建智能化的云计算亚健康管理体系,通过前沿技术创新,实现亚健康全面感知、自动诊断和快速修复,提升云服务可靠性和可用性,为用户带来更优质的使用体验。

亚健康检测与恢复

根因分析与可解释AI

亚健康故障注入

硬件故障智能管理

云计算基础设施的稳定性是大数据和人工智能等产业发展的重要保障。随着数据中心规模的不断扩大,硬件设备种类繁多,云计算服务的可用性、可靠性、性能、效率、安全性和可持续性变得至关重要。团队致力于推进数据中心硬件故障的智能化管理,通过跨领域知识的融合创新,构建自主、前瞻、全面的智能云底座,为AI时代的云计算服务提供更加稳定可靠的基础设施支撑。

智能故障预测

自动故障诊断

故障自愈及处置

  • 静默数据错误
  • 形式化验证
  • 混沌工程与可靠性评估
静默数据错误

静默数据错误(Silent Data Corruption, SDC)是指数据在传输、存储和处理过程中遭到修改或损坏,却不会引发任何显著的系统错误或警报。这种"无声"的数据错误极难被及时发现和定位,最终可能导致计算结果的偏差甚至严重的决策失误,为应对这一挑战,团队致力于构建可靠稳定的数据计算基础设施,确保数据在全生命周期中的安全与完整性,开启数据可靠性的新纪元。

SDC测试用例设计

在线测试用例编排调度

SDC智能定界定位

形式化验证

随着云计算业务规模快速增长,系统复杂性不断增加。团队致力于为云服务提供安全、稳定、高质量的保证,通过在最顶层的架构设计时采用形式化验证,将安全、可靠作为原始出发点,提升系统级可靠性,以证明系统的设计和实现符合预定的属性和要求。针对架构/协议的形式化验证,需要综合运用验证语言、模型检查、符号推理、定理证明等关键技术。

模型检查

定理证明

自动化和工具集成

混沌工程与可靠性评估

在万物互联的数字化时代,应用上云已然成为一种趋势,云服务稳定性关系着国计民生,为了简单、高效的评估云服务和云上应用的可用性,团队致力于基于前沿的混沌工程方法论,设计科学实验,挖掘未知故障对系统影响;主动引入故障,量化云系统的可靠性能力,帮助企业构建稳健的云上基础设施,为企业数字化转型保驾护航。

故障模拟与仿真

流量录制与回放

AI增强测试评估

了解详情
  • 如需了解技术详情,请使用电脑打开页面,或进入研究方向页查看!

合作与招聘

合作计划

云可用性工程Lab合作计划,与学术界和工业界顶尖专家共同探索云计算可用性领域的前沿技术,为用户提供更加可靠、高效的云服务。

加入我们

云可用性工程Lab精英招募计划,诚挚邀请各路精英加入,赋能华为云,打造卓越的云计算体验。

提示

您即将访问非华为云网站,请注意账号财产安全