由英国公司DeepMind开发的AI系统已经实现了人们长期以来追求的目标,即仅从蛋白质序列中就可以准确预测蛋白质的形状,这是理解生命机器如何工作的关键部分。经过测试,AlphaFold能够匹配人类进行昂贵且耗时的实验所获得的三分之二的实验数据。
比赛的组织者之一,马里兰大学的约翰·莫尔特(John Moult)说:“当我看到这项数据时,我真的很惊讶。” “这是我们第一次接近达到实验用途,这是非常不寻常的。”
蛋白质对生命至关重要。细胞其实是一个充满了蛋白质的机器,是一台从产生能量的涡轮机到沿着轨道行走的运输机,这些机器的形状至关重要。例如,冠状病毒可以进入并感染细胞,因为其表面的刺突蛋白适合人类细胞的受体,就像匹配锁的钥匙一样。
这些形状取决于链在一起形成蛋白质的20种不同氨基酸的序列。容易确定任何蛋白质的序列,因为这是由编码该蛋白质的DNA确定的。但是,尽管经过了半个世纪的努力,生物学家以前无法仅从蛋白质序列中得出蛋白质的形状。
相反,他们不得不依靠诸如X射线晶体学的实验方法,该方法涉及分析X射线束穿过蛋白质晶体发射时形成的衍射图。
“这异常困难,” DeepMind的AlphaFold团队负责人John Jumper说。很难制造某些蛋白质的晶体,并且解释衍射图可能很棘手。
仅仅基于物理学的蛮力计算是不可行的,因为蛋白质太复杂了。取而代之的是,世界各地的许多组织都转向了机器学习,即使用已知蛋白质结构的数据集来训练AI系统。
对于每种靶蛋白,包括DeepMind在内的小组都在寻找在相关物种中发现的变体,并将其序列和结构以及靶蛋白的序列输入AI系统。这个想法是该系统通过查看链接序列和结构的模式来学习找出目标蛋白质的形状。
1994年,Moult和他的同事发起了CASP(蛋白质结构预测的关键评估)竞赛,以评判计算机预测的性能。 任何想要进入的组都将发送其蛋白质结构已通过实验确定但尚未公开的蛋白质序列。
根据每个氨基酸与实验确定的位置的接近程度,对100个预测形状进行评分。高于90的分数被认为与通过实验获得的结果相当。
在2016年的比赛中,最好的团队在最困难的类别中获得了大约40分的中位数得分。在2018年,第一版AlphaFold在该类别中的中位数得分接近60。今年,经过重新设计的AlphaFold在最困难类别中的平均得分为87。在所有类别中,三分之二的蛋白质得分都超过90。
穆尔特说,虽然这个结果令人惊讶,但仍然存在一些明显的失败。例如,AlphaFold对蛋白质的结构影响不佳,该蛋白质的结构受与其周围其他蛋白质相互作用的影响。
Jumper说,这种可变性可能是一个问题,但是AlphaFold还提供了一种衡量其预测可信度的方法,因此科学家将知道要依赖哪些预测。“这是巨大的。”
与竞赛分开的是,德国马克斯·普朗克发育生物学研究所的安德烈·卢帕斯(Andrei Lupas)十年来一直在尝试研究特定蛋白质的结构,直到DeepMind提供帮助为止。需要进行一些调整以提高准确性,但是Lupas的团队在收到AlphaFold的预测后的半小时内拥有了最终结构。他说:“这令人惊讶。” “这真是令人惊讶。”
卢帕斯认为,在接下来的几年中,研究人员仍将需要做一些实验性的工作来检查形状预测,但最终将只能依靠计算。他说,这将产生巨大的变化,但是真正的革命将来自能够使用计算机来预测蛋白质如何与其他分子相互作用。
卢帕斯说:“这将彻底改变医学的面貌。” 他说,例如,AlphaFold能够在一月份首次测序后不久预测几种冠状病毒蛋白的形状。更好的方法是能够预测数千种现有药物中的哪些与这些蛋白质结合,并且可能具有治疗作用,而无需进行昂贵的实验。
到目前为止,DeepMind尚未透露有关AlphaFold的详细信息,但表示将很快发表论文。该公司无法透露科学家将如何获得这项技术,但表示它渴望被广泛使用。DeepMind的Pushmeet Kohli说:“我们要确保这具有最大的影响力。”