机器学习是许多生物学家用来分析大量数据的计算工具,可帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经将一种新功能集成到这些类型的机器学习算法中,从而提高了它们的预测能力。
麻省理工学院的研究小组使用这种新方法,可以使计算机模型考虑到他们正在分析的数据中的不确定性,从而确定了几种可能的化合物,这些化合物针对引起结核病的细菌所需的蛋白质。
西蒙斯(Simons)数学教授,计算与生物学小组负责人邦妮·伯杰(Bonnie Berger)表示,这种方法先前已被计算机科学家所采用,但尚未在生物学中普及,也可能被证明对蛋白质设计和许多其他生物学领域有用。在麻省理工学院的计算机科学和人工智能实验室(CSAIL)获得博士学位。
Berger说:“这项技术是机器学习的一个已知子领域的一部分,但是人们还没有将它带入生物学。” “这是一个范式转变,绝对是生物学探索的方式。”
机器学习是计算机建模的一种,其中算法学习基于已经看到的数据进行预测。近年来,生物学家已开始使用机器学习来搜寻潜在药物化合物的庞大数据库,以发现与特定靶标相互作用的分子。
这种方法的局限性在于,当所分析的数据与所训练的数据相似时,算法表现良好,但它们对评估与已经见过的分子却有很大不同的分子的能力却不是很好。
为了克服这个问题,研究人员使用了一种称为高斯过程的技术,将不确定性值分配给训练算法所依据的数据。这样,当模型分析训练数据时,它们还考虑了这些预测的可靠性。
例如,如果进入模型的数据可以预测特定分子与目标蛋白质的结合强度以及这些预测的不确定性,则模型可以使用该信息对尚未进行的蛋白质-目标相互作用进行预测见过。该模型还估计其自身预测的确定性。在分析新数据时,对于与训练数据有很大差异的分子,模型的预测可能具有较低的确定性。研究人员可以使用这些信息来帮助他们确定要对哪些分子进行实验测试。
这种方法的另一个优点是该算法仅需要少量的训练数据。在这项研究中,麻省理工学院的团队使用72个小分子及其与400多种称为蛋白激酶的蛋白质相互作用的数据集训练了该模型。然后,他们能够使用该算法分析近11,000个小分子,这些分子是从ZINC数据库中获得的,ZINC数据库是一个包含数百万种化合物的可公开获得的存储库。这些分子中的许多与训练数据中的分子有很大不同。
使用这种方法,研究人员能够鉴定出对它们放入模型的蛋白激酶具有非常强的预测结合亲和力的分子。这些包括三种人类激酶,以及在结核分枝杆菌中发现的一种激酶。PknB激酶对于细菌的生存至关重要,但不受任何一线TB抗生素的攻击。
然后,研究人员通过实验测试了他们的一些热门歌曲,以查看它们与目标的实际结合程度,并发现该模型的预测非常准确。在该模型赋予最高确定性的分子中,约有90%的命中率很高,远高于用于药物筛选的现有机器学习模型的30%至40%的命中率。
研究人员还使用相同的训练数据来训练传统的机器学习算法,该算法不包含不确定性,然后对相同的11,000个分子库进行了分析。Hie说:“在没有不确定性的情况下,该模型只是令人困惑,并且提出了与激酶相互作用的非常奇怪的化学结构。”
然后,研究人员采用了一些最有希望的PknB抑制剂,并针对细菌培养基中生长的结核分枝杆菌进行了测试,发现它们抑制了细菌的生长。该抑制剂还可以在感染该细菌的人类免疫细胞中发挥作用。
这种方法的另一个重要元素是,一旦研究人员获得了额外的实验数据,他们便可以将其添加到模型中并对其进行重新训练,从而进一步改善预测结果。研究人员说,即使是少量的数据也可以帮助模型变得更好。
Hie说:“您实际上并不需要每次迭代都包含非常大的数据集。” “您仅可以使用10个新示例重新训练模型,这是生物学家可以轻松生成的。”
Bryson说,这项研究是多年来首次提出可靶向PknB的新分子,并且应为药物开发人员提供一个良好的起点,以尝试开发靶向激酶的药物。他说:“我们现在已经为他们提供了一些已经发布的新线索。”
研究人员还表明,他们可以使用这种相同类型的机器学习来增强绿色荧光蛋白的荧光输出,绿色荧光蛋白通常用于标记活细胞内的分子。Berger说,它也可以应用于许多其他类型的生物学研究,他现在正在使用它来分析驱动肿瘤发展的突变。