机器人这样的人工智能机器为某个特定目的而设计的,相比之下,生物体更加复杂,他们不像代码编程一样具有可预测性。研发解决生物问题的新方法,需要区分各种棘手的变量,即使对于最聪明的人脑来说,这也是一项艰巨的任务。
来自哈佛大学怀斯研究所和麻省理工学院的两个科学家团队,已经设计出超越人脑的机器计算方法来绕过这个难题;他们开发了一套机器学习算法,可以分析大量基于RNA的“立足点”序列,并预测哪些序列在感知和响应方面最有效。
正如今天在《Nature Communications》上同时发表的两篇论文所报道的那样,这些算法也可以推广到合成生物学中的其他问题,并且可以加速生物技术工具的开发,以改进科学和医学,帮助拯救生命。
“这些成就令人兴奋,因为这意味着着我们有能力就RNA折叠的基本原理提出更好问题,我们需要了解这些原理,以便实现有意义的发现和建立有用的生物技术,”路易斯·索恩森说,他是怀斯研究所的博士后研究员,也是麻省理工学院杰米尔诊所的风险创造者,也是这两篇论文中第一篇的共同第一作者。
怀斯研究所预测性生物分析计划的数据科学家,与麻省理工学院怀斯核心教师吉姆·柯林斯实验室的合成生物学家合作,旨在应用机器学习的计算能力、神经网络,以及其他算法体系结构,来解决生物学中迄今为止难以解决的复杂问题。
作为他们方法的试验场,这两个团队专注于一类特定的工程RNA分子:托脚开关,它们在“关闭”状态下折叠成发夹状的形状。当一条互补的RNA链与发夹一端的“触发”序列结合时,脚尖开关打开进入“开启”状态,暴露出先前隐藏在发夹内的序列,使核糖体与下游基因结合并将其转化为蛋白质分子。这种对基因表达的精确控制可以响应特定分子的存在,这使得toehold开关非常强大,可以感知环境中的物质,检测疾病,以及其他用途。
然而,大多数时候这种toehold开关在实验测试时并不能很好地工作,即使它们已经被设计为根据已知的RNA折叠规则产生对给定输入的期望输出。认识到这一问题,研究小组决定使用机器学习来分析大量的趾头转换序列,并利用分析中的洞察力更准确地预测哪些趾头可靠地执行其预期任务,这将使研究人员能够快速地为各种实验确定高质量的序列。
他们面临的障碍
没有足够大的toehold开关序列数据集来进行有效的分析。作者自行生成了一个数据集,该数据集将有助于训练此类模型。
“我们设计并合成了一个庞大的toehold switches库,总共近10万个,方法是沿着23个病毒和906个人类转录因子的整个基因组中系统地取样短触发区域,”在Wyss研究所工作的哈佛研究生Alex Garruss说,他是第一篇论文的第一作者。“此数据集的空前规模,使我们能够使用先进的机器学习技术来识别和理解用于直接下游应用和未来设计的有用开关。”
有了足够的数据,研究小组首先使用传统上用来分析合成RNA分子的工具,看看他们是否能够准确地预测脚尖开关的行为,因为有更多的例子可用。然而,他们尝试的所有方法——包括基于热力学和物理特征的机械模型——都无法足够准确地预测哪个脚尖的功能更好。
然后,研究人员探索了各种机器学习技术,看看他们是否能够创建具有更好预测能力的模型。第一篇论文的作者决定分析toehold开关不是作为碱基序列,而是作为碱基对可能性的二维“图像”。
“我们知道RNA分子碱基对如何相互结合的基本规则,但分子是摇摆的——它们从来没有一个完美的形状,而是它们可能存在不同形状的可能性。”麻省理工学院Wyss研究所的研究生、第一篇论文的共同第一作者Nicolaas Angent Mari说。计算机视觉算法已经非常善于分析图像,因此我们创建了一个像图片一样的表示每个脚趾开关可能折叠的状态,并在这些图片上训练了一个机器学习算法,这样它就可以识别出一张给定图片是好还是坏。
通过连续使用这两个模型,研究人员能够预测哪些脚印序列将产生高质量的传感器。
他们基于视觉的方法的另一个好处是,当确定一个给定的序列是“好”还是“坏”时,团队能够“看到”算法“关注”的脚趾开关序列的哪些部分。他们将这种解释方法命名为可视化二级结构显著性图(VIS4Map),并且应用到他们的整个toehold开关数据集。VIS4Map成功地确定了影响其性能的脚掌开关的物理元素,并使研究人员得出结论,具有更多潜在竞争性内部结构的脚趾“更漏”,因此质量低于那些具有较少此类结构的脚趾,提供了对RNA折叠机制的深入了解用传统的分析技术还没有发现。
“一段时间以来,能够理解和解释某些工具起作用或不起作用的原因一直是人工智能界的第二个目标,但在研究生物学时,解释性需要成为我们关注的首要问题,因为这些系统行为的根本原因往往无法凭直觉判断,”他说吉姆·柯林斯,第一篇论文的资深作者。“有意义的发现和颠覆是对自然如何运作的深入理解的结果,这个项目表明,如果设计和应用得当,机器学习可以大大提高我们获得有关生物系统重要见解的能力。”柯林斯还是医学工程和科学的学期教授在麻省理工学院。
当第一个团队将toehold开关序列分析为2D图像以预测其质量时,第二个团队创建了两个不同的深度学习架构,使用正交技术来应对挑战。然后,他们超越了预测托脚质量的范围,并利用他们的模型为不同的目的优化和重新设计性能不佳的托脚开关,这是他们在第二篇论文中报告的。
第一个模型基于卷积神经网络(CNN)和多层感知器(MLP),将toehold序列视为1D图像或核苷酸碱基线,并识别碱基的模式和这些碱基之间的潜在相互作用来预测toehold的好坏。该团队利用该模型创建了一种优化方法,称为STORM(基于序列的Toehold优化和重新设计模型),该方法允许从一开始就对一个Toehold序列进行完全重新设计。这种“空白石板”工具最适合于生成新的托脚开关,作为合成遗传电路的一部分执行特定功能,从而能够创建复杂的生物工具。
“STORM及其基础模型最酷的部分是,在用第一篇论文的输入数据对其进行播种后,我们能够用168个样本对模型进行微调,并使用改进后的模型优化toehold开关。这使人们对一种普遍的假设产生了质疑,即每当你想将机器学习算法应用于一个新问题时,你都需要生成大量的数据集,这表明深度学习可能比我们想象的更适用于合成生物学家。
Wyss核心教师彭寅(Peng Yin)与柯林斯(Collins)等人合作的研究表明,不同的toehold开关可以组合起来计算多个“触发器”的存在,类似于计算机的逻辑板。
第二个模型是基于自然语言处理(NLP)的,它把每个立足点序列看作是一个由“单词”模式组成的“短语”,最终学习如何将某些单词组合在一起,形成一个连贯的短语。“我喜欢把每一个toehold的转换想象成一首诗:它是在它的母语言中非常具体的短语排列——在这个例子中,是RNA。我们基本上是在训练这种模式,通过大量的例子来学习如何写出一首好的俳句。
拉梅什和他的合著者将这种基于NLP的模型与基于CNN的模型相结合,创建了NuSpeak(核酸语音),这是一种优化方法,允许他们重新设计给定toehold开关的最后9个核苷酸,同时保持其余21个核苷酸的完整性。这项技术旨在检测特定致病性RNA序列的存在,并可用于开发新的诊断测试。
该团队通过优化设计用于检测SARS-CoV-2病毒基因组片段的toehold开关,对这两个平台进行了实验验证。Nuspiak将传感器的性能平均提高了160%,而STORM则制造了四个“坏”的SARS-CoV-2病毒RNA传感器,其性能提高了28倍。
“STORM和Nuspiak平台的一个真正好处是,它们使您能够快速设计和优化合成生物组件,正如我们在COVID-19诊断用脚尖传感器的开发中所展示的那样,”第一作者之一Katie Collins说,他是麻省理工学院Wyss学院的一名本科生,曾与麻省理工学院副教授timothylu合作,后者是第二篇论文的通讯作者。
“通过机器学习实现的数据驱动方法,为计算机科学和合成生物学之间真正有价值的协同作用打开了大门,我们才刚刚开始触及表面,”第二篇论文的通讯作者、高级生物信息学科学家、预测性生物分析学的共同负责人迪奥戈·卡马乔说怀斯研究所的倡议。“也许我们在这些论文中开发的工具最重要的方面是,它们可以推广到其他类型的基于RNA的序列,如可诱导的启动子和自然发生的核糖开关,因此可以应用于生物技术和医学中的一系列问题和机遇。
论文的其他作者还包括怀斯大学的核心教师和英国皇家医学院乔治教堂的遗传学教授,以及怀斯和麻省理工学院的研究生米格尔·阿尔坎塔和比安卡·莱佩。
“人工智能是刚刚开始影响科学和工业的浪潮,在帮助解决棘手问题方面具有不可思议的潜力。Wyss研究所的创始主任Don Ingber说:“这些研究中所描述的突破性进展,证明了将计算机与合成生物学相结合,开发出新的、更强大的生物灵感技术的力量,此外,还将带来对生物控制基本机制的新见解。”。Ingber还是哈佛医学院血管生物学和波士顿儿童医院血管生物学项目的Judah Folkman教授,以及哈佛大学约翰A.保尔森工程和应用科学学院的生物工程教授。
这项工作得到了DARPA协同发现和设计计划、保罗G.艾伦前沿小组、哈佛大学Wyss生物启发工程研究所、医学工程和科学研究所、麻省理工学院的支持,美国国家科学基金会,国家人类基因组研究所,能源部,国家卫生研究院,以及一项康奈特基金。