通过将自然语言处理工具应用到蛋白质分子的运动中,马里兰大学的科学家创造了一种抽象语言,该语言描述了蛋白质分子可以具有的多种形状,以及它是如何以及何时从一种形状过渡到另一种形状的。
蛋白质分子的功能通常是由其形状和结构决定的,因此了解控制形状和结构的动力学可以打开一扇门,让我们了解从蛋白质的工作原理到疾病的原因以及设计靶向药物疗法的最佳方式等所有事情。这是机器学习算法首次以这种方式应用于生物分子动力学,该方法的成功也提供了有助于推进人工智能(AI)的见解。一篇关于这项工作的研究论文于2020年10月9日发表在《自然通讯》杂志上。
该论文的资深作者,UMD化学与生物化学系副教授Pratyush Tiwary表示:“在这里,我们展示了用于撰写电子邮件时用来完成句子的AI架构,可以用来揭示生命分子所讲的语言。”物理科学技术研究所。“我们证明了这些分子的运动可以被映射成一种抽象语言,并且人工智能技术可以用来从所产生的抽象词中产生生物学上真实的故事。”
生物分子不断运动,在周围环境中摇曳。它们的形状取决于它们如何折叠和扭曲。它们可能会以给定的形状保持几秒钟或几天,然后突然弹开并重新折叠成其他形状或结构。从一种形状到另一种形状的过渡非常类似于逐步展开的缠结线圈的拉伸。当线圈的不同部分释放和展开时,分子呈现不同的中间构象。
但是从一种形式到另一种形式的转变发生在皮秒(万亿分之一秒)或更短的时间内,这使得诸如高功率显微镜和光谱学之类的实验方法难以准确地捕获展开的过程,哪些参数影响展开以及什么不同的形状是可能的。这些问题的答案构成了蒂瓦里的新方法可以揭示的生物学故事。
蒂瓦里和他的团队运用牛顿的运动定律(可以预测分子内原子的运动),通过强大的超级计算机(包括UMD的Deepthought2)来开发统计物理模型,以模拟单个分子的形状,运动和轨迹。
然后,他们将这些模型输入到机器学习算法中,就像Gmail会在您键入内容时自动完成句子一样。该算法将模拟作为一种语言进行处理,在这种语言中,每个分子运动都形成一个字母,该字母可以与其他运动串在一起形成单词和句子。通过学习确定哪些形状和运动相互遵循而哪些不遵循的语法和语法规则,该算法可以预测蛋白质在改变形状时的纠缠方式以及沿途采取的多种形式。
为了证明他们的方法有效,研究小组将其应用于一种名为核糖开关的小生物分子,该分子先前已使用光谱法进行了分析。结果揭示了核糖开关在拉伸过程中可能采取的各种形式,与光谱学研究的结果相吻合。
Tiwary说:“我希望这项技术最重要的用途之一是开发有针对性的药物。”“你想要药效很强的药物,但只能结合你想要它们结合的东西。如果我们能理解特定生物分子的不同形式,我们就能实现这一点,因为我们可以制造出在适当的时间只与其中一种特定形式结合的药物,而且这种结合持续的时间只要我们想要。”
这项研究中同样重要的一部分是对Tiwary和他的团队所使用的语言处理系统的认识,这个系统通常被称为递归神经网络,在这个具体的例子中是一个长短期记忆网络。研究人员分析了支撑网络学习分子运动语言的数学原理。他们发现,该网络使用了一种逻辑,类似于统计物理学中一个叫做路径熵的重要概念。理解了这一点,就有机会在未来改进递归神经网络。
Tiwary说:“人们很自然地会问,人工智能工具的成功背后是否有一些重要的物理原理。”“在这里我们发现,这的确是因为人工智能正在学习路径熵。现在我们知道了这一点,它打开了更多的旋杆和齿轮,我们可以调整来做更好的生物人工智能,甚至改善人工智能本身。任何时候,只要你理解了一个复杂的系统,比如人工智能,它就不再是一个黑盒子,而是为你提供了更有效、更可靠地使用它的新工具。”