寻求治愈癌症的复杂性已使研究人员困扰了几十年。虽然他们取得了显著的进步,但他们仍在为之战斗,因为癌症仍然是全世界死亡的主要原因之一。
然而,科学家可能很快就有一个在他们身边的关键新盟友 - 人工智能机器 - 可以以不同的方式解决这些复杂性的问题。
考虑一个来自游戏世界的例子:去年谷歌的人工智能平台AlphaGo,部署了 深度学习 的技术,击败了世界顶级围棋高手韩国著名围棋手李世石,围棋是极其复杂的游戏,每一步的走法可能性比宇宙中星星的数量都要多。
这些相同的 机器学习 和人工智能的技术也可以带到解决癌症的大规模科学谜题中来。
有一件事是肯定的 - 如果我们没有更多的数据可以使用,我们就无法利用这些新科技来征服癌症。例如,许多数据资料,包括医疗记录,基因 测试 和乳房X线照片,如果被封 锁 ,那就无法被最好的科学思想和最好的学习算法所利用到。
好消息是, 大数据 在癌症研究中的作用现在已进入主要发展阶段,一些大规模政府主导的 基因测序 计划正在向前发展。这些包括美国退伍军人事务部百万老兵计划;英国的100,000基因组计划;和NIH的癌症基因组图谱,其保存来自超过11,000个患者的数据,并且通过云分析开放给任何地方的研究者。根据最近的一项研究,2025年可以 测序 多达20亿个人类基因组。
还有其他趋势推动对新数据的需求,包括遗传测试。在2007年,测序一个人的基因组成本1000万美元。今天你只需要花不到1,000美元。换句话说,10年前排序一个人,我们现在可以做10000。这个影响是很大的:发现你有基因突变或患上某些类型癌症的更高风险有时可能是一个拯救生命的信息。而且随着投入越来越多,研究工作也面临巨大的潜在规模。
研究人员(和社会)的一个核心挑战是,目前的数据集缺乏数量和种族多样性。此外,研究人员经常面临限制性法律术语和不愿意分享合作伙伴关系。即使组织共享基因组数据集,协议通常在个体机构之间针对单个数据集。虽然目前有更大的结算所和 数据库 已经做了伟大的工作,但我们需要更多的标准化术语和平台工作来加速访问。
这些新技术的潜在利益超出了识别风险和筛查的范围。机器学习的进步可以帮助加速癌症药物的开发和治疗选择,使医生能够将患者与临床试验匹配,并提高他们为癌症患者提供定制治疗计划的能力(赫赛汀,最早的例子之一,仍然是最好的例子之一) 。
我们相信有三件事情需要发生,使数据更可用于癌症研究和 AI 程序。首先,患者应该能够轻松地贡献数据。这包括医疗记录,放射学图像和遗传测试。实验室公司和医疗中心应采用共同的同意书,使数据共享容易和合法。第二,在人工智能领域,数据科学和癌症的结合点上工作的研究人员需要更多的资金。正如Chan Zuckerberg基金会为医药新工具开发提供资金一样,新的人工智能技术需要为医疗应用提供资金。第三,应该产生新的数据集,重点是所有种族的人。我们需要确保所有人都能获得癌症研究的进展。