2013年,好莱坞巨星因担心家族遗传的乳腺癌风险而去进行基因检测,结果发现她携带了BRCA1基因突变,这一基因突变导致她患乳腺癌的风险为87%,患卵巢癌的风险为50%。为了避免自己像母亲和外婆一样在四五十岁的年纪遭受癌症折磨,朱莉选择了乳腺切除手术,2015年,她又通过手术切除了卵巢和输卵管。她认为基因检测挽救了自己的生命。
之所以能做出这样的选择,得益于基因测序这项重要技术。在了解基因测序技术之前,我们先要了解基因是什么。
基因与基因测序
早在1909年,丹麦遗传学家 W. Johansen 正式提出“基因”(Gene)这一概念。1953年,詹姆斯·沃森和弗朗西斯·克里克提出了DNA的双螺旋结构。自此,人们开始认识到了基因的本质——具有遗传效应的DNA片段。这些DNA片段就像一段段代码,记录和储存着生命的物种、种族、血型、孕育、生长、凋亡等过程的全部信息。
小如细菌,大如蓝鲸,高等如人类,都是由DNA组成的基因在代代相传,它们构成了生命的“遗传密码”。对于我们人类而言,我们为何成为唯一的智慧生命、我们的身高、肤色、发色、智力、各种遗传疾病、癌症风险、寿命等等,都与基因密切相关。总而言之,生物体的生、长、衰、病、老、死等一切生命现象都在很大程度上由基因决定。
为了揭开基因的秘密,上世纪90年代,在全世界科学家的推动下,与“曼哈顿计划”和“阿波罗计划”齐名的“人类基因组计划”正式启动。这一计划希望对人类整个基因组的30亿对DNA序列进行基因测序,从而帮助我们更好地了解人类自身。
2001年,历时十多年,花费近30亿美元资金后,人类基因组工作草图发布,标志着人类基因组计划的成功,人类首次了解并掌握了自身的遗传密码。这不仅是一项伟大的科学工程,也为我们解码生命、了解生命起源、生长发育、认识疾病、治疗疾病、对抗衰老等奠定基础。
然而,人类基因组计划的成功仅仅是一个开始。我们从人类基因组图谱中只发现了20000多个编码蛋白质的基因,这些基因只占据人类基因组的不到3%,其余的绝大多数是不编码蛋白质的非编码序列,这些序列仍然隐于黑暗,等待着科学家们的探索。
基因测序还有哪些难点?
基因测序,一开始成本非常之高,20多年前,人类基因组计划耗资近30亿美元,才完成了对人类大部分基因序列的测序,这种高昂的成本显然不是常规科研所能承受的,就更别说消费级的基因测序了。随着测序技术的进步,基因测序成本得到了快速下降,如今完成一个人的全部基因组测序的成本已经降到了1000美元以下。
然而,无论是对于科研来说,还是对于消费级基因测序而言,基因测序过程中产生的数据规模很大(个人基因组原始数据可达1TB ,百万人群基因组计划涉及EB级的数据处理),对算力要求高。测序分析流程复杂,自动化程度低,需要耗费大量人力、时间重复开发流程,导致效率较低。这些难点阻碍了基因测序成本的进一步下降,也阻碍了科研和消费级基因测序的应用普及。
华为云AI基因平台,一站式助力基因分析工作
1、EIHealth AI基因平台的助力
基于华为云AI和大数据优势,华为云推出了医疗智能体(EIHealth),为基因组分析、药物研发、临床研究三个领域提供专业AI研发平台。其中,华为云EIHealth AI基因平台能够提供高性能、高可靠性、高性价比的基因测序计算、存储、分析及AI建模能力,帮助加快基因测序速度、提高效率、降低成本。
具体来说,在大规模生产场景中,AI基因平台可以支持EB级别存储,不受硬盘限制,满足海量数据的存储,并通过批量自动化作业,节约人力成本,从而帮助资源成本降低30%。
当业务存在潮汐属性时,AI基因平台可以实现资源弹性扩缩容,业务集中在1/3时间内,能够帮助节省超40%成本。
面对组织协作场景,AI基因平台能够实现组织内资源共享,减少重复开发,将人员协作效率提升30%,将人力开发成本降低50%,资产复用效率提升100%。
同时,AI基因平台还具备AI能力。生物医药领域专家一般AI算法能力相对薄弱,采用的大多是传统的统计学算法。华为云AI基因平台能够通过独有的AutoGenome算法,对基因组数据进行自动AI建模、分析和解译,帮助自动化寻找参数,并自动化地针对模型做可解释性研究。用户只需配置5行代码,就能构建高精度的AI基因模型,覆盖单组学、多组学和基因作用网络。在性能方面,针对基因组的建模性能普遍能够提升10%,并且能够找到生物标记物。这对生物医药客户而言非常重要,代表着模型不仅准确,还能够知道为什么准确,以及后续只要查看这个生物标记物,就知道病人应该吃什么药、做什么检查。
值得一提的是,在完成基因测序后,由于数据量大,分析结果的交付方式往往是邮寄移动硬盘,这导致结果交付周期长、成本高。而AI基因平台可开通子账号给客户,客户直接登陆后下载,节约了硬盘成本以及邮寄成本,缩短了交付周期。
2、案例分享
在国外,华为云支撑了“百万人群基因组计划”,单日分析数据超过1PB,相比于传统的HPC(高性能计算)方案提速10倍以上,与此同时,还实现了成本降低30%。
在国内,北京协和医院临床研究人员基于EIHealth平台发现了肺癌药效标记物,为mEGFR肺腺癌患者的临床反应分类提供了新的视角,并揭示了非侵入性预处理血清代谢物在预测EGFR-TKI疗效方面的潜力。该研究发表于 American Journal of Cancer Research 期刊。
3、探索非编码序列
我们前面提到,人类基因组中只有20000多个编码蛋白质的基因,而到目前位置,几乎所有的药物都是针对这20000多种蛋白质中的700多种与疾病相关的蛋白质。这显然是太少了,也导致了许多疾病无药可医。而人类基因组中超过97%的DNA序列是非编码的,它们是药物靶点发现的蓝海,对这些非编码序列进行基因测序和分析,有助于我们重绘了人类基因组格局,并极大地扩展潜在治疗靶点数量。
AI在医疗领域还能做什么
2016年,谷歌发布了首个AI医疗算法,能够通过AI从视网膜眼底照片中检测糖尿病性视网膜病变,特异性和灵敏度堪比专业眼科医生。拉开了AI+医疗的序幕。此后,基于人工智能(AI)的病理诊断、辅助治疗产品整体呈现出蓬勃发展的态势。此外,AI制药、AI蛋白质结构预测等领域同样突飞猛进,AI正在以前所未有的速度和效率改变整个生物医药领域。
华为云助力超级抗菌药的发现
2022年2月,西安交通大学第一附属医院刘冰教授团队学习噬菌体与细菌结合的机制,采用基于华为云盘古药物分子大模型打造的AI辅助药物设计服务,突破性地研发出超级抗菌药 Drug X,打破医药界的“双十定律”。Drug X有望成为全球近40年来首个新靶点、新类别的抗生素。刘冰教授表示,华为云盘古药物分子大模型让先导化合物的研发周期从数年缩短至一个月,而且研发成本降低了70%。
呼吸慢病+AI,提升质控精度和判别精度
呼吸慢病是中国范围内仅次于高血压、糖尿病的第三大常见慢性病。患者基数大,各级医院对肺功能检查应用及质量保证的能力参差不齐,基层医院尤甚。为提升基层呼吸慢病筛查管理能力,华为云EI创新孵化Lab与广医一院国家呼吸中心、易优联、赛客等伙伴联合开发了肺功能大数据和AI辅助系统。根据大规模测试结果,华为云AI助力呼吸慢病检测的质控精度和判别精度稳步提升,最高由50%提升至90%,高于90家医院被调研医生的平均水平。
心脑血管疾病AI辅诊,各领域持续突破
脑动脉瘤位居脑血管疾病病因中的Top3,堪称“沉默又致命的杀手”。针对动脉瘤辅诊难题,华为云EI创新孵化Lab联合华中科技大学电信学院、华中科技大学同济医学院附属协和医院放射科,运用华为云AI开发生产线ModelArts开发平台开发了一套基于CTA影像的全自动化、高度敏感的脑动脉瘤检测算法,灵敏度高达97.5%,帮助医生临床诊断灵敏度提升约10个百分点,漏诊率降低5个百分点,同时有效缩短医生诊断时间。
AI辅助宫颈癌筛查模型,促进早筛早治
在宫颈癌筛查领域,华为云AI团队与金域医学病理专家团队合作,基于病理形态学,通过深度学习技术,训练出精准、高效的AI辅助宫颈癌筛查模型。该模型在排阴率高于60%的基础上,阴性片判读的正确率高于99%,阳性病变的检出率超过99.9%。同时,每例病理判读仅需36秒,判读速度是人工判读的10倍。
AI辅助宫颈癌筛查的方法在医疗资源匮乏的地区具有特殊价值,将可以大幅提升宫颈癌筛查服务覆盖的人群范围与服务频率,促进宫颈癌早筛早治。
AI+生命科学的无限可能
近年来,DeepMind开发的人工智能程序AlphaFold实现了对蛋白质结构的准确预测,让全世界看到了人工智能在生命科学中的强大潜力。如今,AlphaFold2、Meta AI预测了地球上几乎所有的、数以亿计的蛋白质结构;而华盛顿大学David Baker团队开发的RoseTTAFold能够通过AI来构想和设计蛋白质。
基于AI和大数据打造的华为云AI基因平台,能够提供高性能、高可靠性、高性价比的基因测序计算、存储、分析和AI能力支持,让科研过程标准化、可执行,从而帮助加快基因测序速度、提高效率、降低成本;此外,华为云平台还能够帮助药企更快速高效地完成药物研发,节约研发成本;还能帮助临床研究,提供医疗临床数据AI分析模型、病人分群标记物发现服务、药物疗效预测服务、医疗影像大数据智能标注和AI辅助诊断。
AI正在推动生命科学以前所未有的速度快速发展,AI病理影像、AI疾病筛查、AI制药、AI基因分析、AI医疗机器人、AI蛋白结构预测与设计,都是前进路上的一个个里程碑,AI和生命科学的结合,还有更多的惊喜等待着我们。
华为云将通过AI for Healthcare,持续为人类疾病防御、诊断治疗、药物研发等贡献力量。