为什么人工智能模型的“精确性”会产生误差

想象你一个人在家,天很黑。你的邻居最近几周里发生了不寻常的盗窃案。你还记得:你的新安全系统,这是最先进的,有一台相机,它不仅可以实时识别出奇怪的动作,还能识别陌生人的脸。你相信如果有人想进入你的家,这个系统会提醒你,这样你就睡得很好了。


新的安全系统很有用,因为您相信它可以工作。但是你怎么知道这个设备会按承诺的方式运行吗?本质上,消费者在信任相机时,技术人员为相机配备了智能摄像头。这意味着技术人员有很大的责任确保他们构建的神经网络(NNs)无论是设计用来识别陌生面孔还是其他方面,都能成功地完成他们的任务。


实际上,最流行的评估神经网络(NN)“准确性”的方法并不像您想象的那样可信。最终,技术专家们希望建立能够做出良好预测的模型,但是由于我们无法获得我们将来将看到的示例,我们应该如何首先构建一个NN?


通常做法是将可用数据集划分为培训和测试子集。只使用培训数据来训练神经网络(即通过查看测试集不“作弊”)。然后,人们经常将测试集上的NN质量作为平均准确度来评估:当对整个测试集进行评估时返回的正确答案的数量。


显然,平均准确度是评估神经网络质量的最佳标准——即使在主要会议上的技术论文中也被广泛使用——但它并不像看上去那么明智。对于更可信的模型,甚至最终,更值得信赖的产品,技术专家必须避免被简单的精确性度量和与之相关的常见误解所愚弄。考虑以下事项:


单靠高精度并不意味着高质量


迄今为止,全球约有1/1000人感染了新型冠状病毒。幸运的是,我有一个非常精确的模型,可以预测你是否有新型冠状病毒。我的模型正确率达到99.9%,所以它是高度准确的…但完全没有用。


在今天的实践中,如果我的神经网络在标准数据集上的平均精度高于您的,那么我的网络被视为“更好”。我相信,奇怪的是,几乎没有客户真正看重平均精度,尽管它几乎无处不在,作为质量的衡量标准。


要了解原因,问问自己,你如何才能分辨神经网络是否在实践中会有所帮助。它需要做出两种预测:1)良好,当遇到以前看不见的真实例子时,这可以正确地回答;2)有用,这对下游决策是值得信赖的。


所有错误创建时不相等


假设您想要一个能区分狗、猫和直升机图像的神经网络。机器学习研究者A和B都创建了NNs,并且都显示了98%的测试集的准确性。然而,当A不能为狗返回“狗”时,它返回“猫”,而B返回“直升机”给它无法识别的狗。这两种模型的测试精度与上面计算的相同,但是您希望采用哪种模型?A比B更可能正确地捕捉到“狗”的概念,但仅从准确性来看,A和B是同等的值。

为什么人工智能模型的“精确性”会产生误差_人工智能_AI+

两种模型的精确度相同,但你更愿意选择一个错误答案是“猫”的模型,还是一个错误答案为“直升机”的模型?


不幸的是,最流行的精度评估方法没有量化A的模型比B的好多少,也没有相应地优化训练好的神经网络。诸如mAP、f1和它们的许多变体之类的度量捕获了模型质量的某些方面,但是只关注错误的数量,而不是它们的相对严重性。这种强调的选择并不能解决大多数客户的问题。例如,哪个更糟:X)人脸识别让你以外的人解锁你的手机;Y)人脸识别阻止你解锁手机?两者都很烦人,但大多数人都会说X是一个更严重的错误,在评估模型的整体质量时必须考虑到这个错误。


低最大惊喜比低平均惊喜更重要


交叉熵(cross-environment)几乎是普遍使用的,它捕捉了平均惊喜,从字面上说,在比较训练集上的预测与实际情况时,最终神经网络应该具有的平均惊喜最小化。交叉熵有效地忽略了少数奇怪的结果,但恰恰是这些奇怪的结果提供了最多的信息。


假设在10万张训练图片中,只有一张狗图片被误分类为直升机,而其他错误分类的狗被视为猫。难道我们不应该发现那个令人震惊的,像直升机一样的狗在告诉我们什么吗?我相信用户关心的是最小化最大惊喜,而不是平均惊喜。在训练过程中,狗作为直升机的图片应该比不那么令人惊讶的狗图片对神经网络的影响要大得多,尽管不那么令人惊讶的图片要多得多。回到Covid-19的例子,我的模型有低平均惊喜,但当它遇到有Covid-19的人时,最大惊喜很高。这就是为什么它是无用的,即使它有很高的平均精度。


为了建立更值得信赖的模型——最终是更值得信赖的产品——我们必须重新思考我们如何衡量准确性及其在决定质量中的作用。通过挑战模型构建中广泛存在的质量和错误假设,我们可以在构建既好又有用的NN方面迈出新的一步,而不是简单地、令人失望地“精确”。有了您可以信任的模型,以及性能正常的产品,拥有智能家庭摄像头的人们可以自信地认为,陌生的入侵者会触发快速有效的警报,并且可以放心地知道他们会得到安全保护。

4
7
0
29

相关资讯

  1. 1、《小小足球》炫酷角色首曝再点燃一次足球热情1614
  2. 2、无酣战不武侠君海《武林主宰》战斗截图曝光1483
  3. 3、皇子私塾开课《熹妃传》皇子学习指导手册4381
  4. 4、影游联动新风向《悬空城》“全明星”计划开启2818
  5. 5、《风之旅团》大场面伏魔盛宴畅享真动作厮杀1992
  6. 6、《封神来了》今日新服火爆上线福利大放送679
  7. 7、暑期人气火爆《烈焰龙城》非R新手入门497
  8. 8、开启无限连击《熊猫人》8月4日熊猫人开启1198
  9. 9、匠心营造《啪啪三国2》吕布原画曝光1400
  10. 10、游奇《卧龙吟》通勤途中提升品味和IQ的最佳选择3428
全部评论(0)
我也有话说
0
收藏
点赞
顶部