智能机器将变得无处不在,为我们做家务,让我们自由地从事创造性的、增值的任务。当你想到机器学习时,你首先想到的是什么?
对许多人来说,这是监督性的ML,ML从你的(训练)数据中学习,使之变得聪明,然后做出预测。它的预测用于任务自动化,从简单的任务如设置恒温器到更复杂的任务,如自动驾驶汽车。这些预测也被主题专家用来辅助决策-商业智能就是一个典型的例子。它们也被用于流行的应用程序,比如TikTok。
换句话说,这主要是关于预测。ML构建了预测你的世界的统计模型。但ML还有另一个重要且常常被忽视的功能:它从数据中推断出见解。广义地说,它研究数据中的各种参数(变量)是如何相互关联的。
假设你有兴趣找出影响收缩压的因素。使用电子表格,你可以记录可能影响你血压的各种参数:睡眠小时数、有氧运动分钟数、药物、饮食习惯、工作压力等等。这些数据训练可以完善你的统计模型,以了解你的心脏行为和预测你的收缩压。如上所述,这就是ML通常用于预测的方式。
下一步,你很想知道这些参数之间的关系以及对收缩压的影响。例如,如果你的工作压力很大,那么如果你做20分钟或更长时间的有氧运动或晚上散步,你的收缩压可能会恢复正常,而不幸的是,药物治疗可能没有那么大帮助。
数据中还隐藏着更多这样的规则,这些规则是根据你的心脏行为而个性化的。想象一下,有了这些见解,我们可以多么好地控制我们的血压!从ML中发现的预测收缩压的能力甚至比挖掘出来的数据更重要。
我们如何让ML挖掘这些见解?
它需要透明的ML,随着统计模型变得越来越复杂,这一点越来越困难。
最近,随着“可解释人工智能”的发展,研究在透明度方面取得了进展,它解释了预测背后的原因。它列出了有影响的参数以及它们在预测结果中的相对重要性(在我们的医疗保健例子中是收缩压)。
来自华盛顿大学的本地可解释模型不可知论解释(LIME)是ML解释AI的第一步,它用更简单、更透明的模型来近似复杂、不透明的模型。不过,还需要做更多的工作,特别是,用于构建透明模型的培训数据很难导出,从而导致误导性的解释。一些较新的ML平台,如EazyML,已经使用启发式方法成功地解决了这个问题,特别是对于分类问题。
尽管研究必须继续,但ML已经成熟到可以提供数据见解的程度。在我们关于收缩压的医疗实例中,想象一下一位心脏病专家能够就如何保持血压水平正常向患者提供具体、个性化的建议。机器学习的数据洞察力将开创一个新时代,帮助我们更好地了解我们周围的世界。