著名的医生们公开批评谷歌和其他人大肆宣扬的人工智能研究,却不分享源代码和模型,让其他人复制和验证实验。
一月份,由Google Brain的斯科特·梅耶·麦金尼(Scott Mayer McKinney)领导的团队在《自然》杂志上发表了一篇论文,称其人工智能在乳房X光检查中发现乳腺癌的能力优于人类医生。主流媒体广泛报道了这个说法。如今,一些顶尖的医生在本周《自然》杂志上发表的一篇文章中抱怨说,谷歌的员工没有提供可用的证据来支持他们的说法。
加拿大的玛格丽特公主癌症中心(Canada's Princess Margaret Cancer Centre)资深科学家,该论文的第一作者本杰明·海贝·凯恩斯博士说: “从理论上讲,麦金尼等人的研究是美丽的。但是,如果我们不能从中学到东西,那么它几乎没有科学价值。”
海贝·凯恩斯告诉媒体: “如果没有计算机代码和合适的模型,在他们的工作基础上进行构建将非常困难。”
他还表示:复制他们的模型并不是不可能的,但这需要几个月的时间,而且无法保证新生成的模型与他们的模型非常接近,即使可以获得他们用于训练的所有数据。
例如,关于系统超参数和训练管道的信息都没有包含在论文中。海贝·凯恩斯说,研究人员应该公布相关的源代码,以便更容易验证和测试这些说法。这样做很科学。
除了海贝·凯恩斯,来自顶级机构的其他22位专家——包括多伦多大学、斯坦福大学医学院、麻省理工学院、布里格姆妇女医院和大型分析质量控制协会(一个致力于生殖科学的组织)——也在这篇文章中署名。海贝·凯恩斯和他的同事们表示,谷歌公布的研究文献不足,不符合科学发现的核心要求。
“仅仅是对深度学习模型的文本描述就可以隐藏它们的高度复杂性。计算机代码中的细微差别可能会对训练和结果评估产生显著影响,可能会导致意想不到的后果。因此,用于训练模型并得出最终参数集的实际计算机代码的透明度对于研究的重现性至关重要。”
发布源代码并不难,他们建议可以在GitHub、GitLab或Bitbucket等网站上发布。在预打印服务arXiv上,也有一个文件标签来显示相关的源代码。
诚然,在实际系统上部署模型更棘手,不过有一些软件可以使这个过程更容易,比如Docker、Code Ocean、Gigantum和Colaboratory。
谷歌的一位发言人在接受媒体采访时说:“有一点很重要,那就是,这只是一项早期研究。”由于这个项目的医学性质,这家网络巨头似乎不希望它的源代码在经历了QA过程之前发布。发言人还表示:“我们打算在临床环境中使用我们的软件之前进行广泛的测试,与患者、提供商和监管机构合作,以确保其有效性和安全性。“
不只是互联网巨头
海贝·凯恩斯说,这种代码保留问题不是谷歌特有的;许多由各种团队撰写的关于人工智能使用的科学论文缺乏重新创建实验的材料。他还说:“研究人员应更有动力发表研究结果,而不是花时间和资源来确保他们的研究可以复制。”
期刊很容易受到人工智能炒作的影响,并且可能降低论文的接受标准,因为这些论文不包括使研究可重复性所需的所有材料,这常常与他们自己的准则相矛盾。
在研究中隐瞒关键的细节,比如用于创建机器学习软件的源代码,不利于科学进步,而且会阻止算法在现实世界的临床环境中得到测试。
麦金尼团队在《自然》杂志上发表了一篇回应文章,礼貌地回击了医生们的文章,感谢专家们“体贴的贡献”。
他们写道: “我们同意透明性和可重复性对于科学进步至关重要。按照这一原则,我们的出版物中使用的最大数据源可供学术界使用。”
然而,他们不会发布算法的代码,并声称模型中的大多数组件已经对公众开放,其中许多组件是由谷歌自己发布的。
谷歌表示:“由于医疗领域中与人工智能有关的责任问题仍未解决,因此提供对此类技术的无限制访问可能会使患者、提供商和开发人员处于风险之中。此外,发展有影响力的医疗技术必须是一项可持续的事业,以促进一个充满活力的生态系统,支持未来的创新。”
海贝·凯恩斯告诉《El Reg》,尽管有无数的请求,他对谷歌决定不发布代码并不感到惊讶:“他们已经得到了发表他们最初研究的机会,第二次是发表我们的文章。他们没有抓住这些机会,因此很明显,他们不想共享自己的计算机代码。”
谷歌出于商业原因可能会保留该代码。通过对代码保密,这家广告巨头在推进临床试验和开发可销售给医疗保健提供商的产品方面占据了上风。
海贝·凯恩斯告诉我们:“这没有什么错,但它与科学本身没有什么关系,因为没有新的知识在谷歌之外被产生和分享,以促进研究的发展。还有一种我不愿意相信的更黑暗的可能性:它不希望任何人检查它的代码,因为它担心它的模型不稳定,或者可能存在隐藏的偏见或混淆因素,使模型的预测无效。”