12月17日消息,莱斯大学的研究人员发现了一种更有效的方法,让社交媒体公司利用人工智能训练的概率过滤器来防止错误信息在网上传播。
Rice计算机科学家Anshumali Shrivastava和统计学研究生Zhenwei Dai提出的一项研究中概述了扫描社交媒体的新方法。他们的方法以更智能的方式应用机器学习来提高布鲁姆过滤器的性能,布鲁姆过滤器是一种广泛使用的技术,设计于半个世纪前。
使用假新闻故事和计算机病毒的测试数据库,Shrivastava和Dai表明他们的自适应学习型布隆过滤器(Ada-BF)需要的内存减少了50%,以达到与学习型布隆过滤器相同的性能水平。
解释过滤方法
为了解释他们的过滤方法,Shrivastava和Dai引用了Twitter的一些数据。这家社交媒体巨头最近透露,其用户每天新增约5亿条推文,而推文通常在用户点击发送后一秒出现在网上。
"在大选前后,他们一秒钟能收到大约1万条推文,在1秒的延迟下,每毫秒大约有6条推文,"Shrivastava说。"如果你想应用一个过滤器,读取每一条推文,并标记那些已知是假的信息,你的标记机制不能慢于六毫秒,否则你会落后,永远赶不上。"
如果将标记的推文送去进行额外的人工审核,那么低的误报率也是至关重要的。换句话说,你需要尽量减少有多少真正的推文被错误标记。
"如果你的假阳性率低至0.1%,即便如此,你每秒也会错误地标记10条推文,或者每天超过80万条推文进行人工审核,"他说。"这正是为什么大多数传统的只用人工智能的方法对于控制错误信息来说是令人望而却步的。"
Shrivastava表示,Twitter并没有披露其过滤推文的方法,但据信他们采用了Bloom过滤器,这是一种1970年发明的低内存技术,用于检查一个特定的数据元素,比如一段计算机代码,是否属于一组已知元素的一部分,比如已知计算机病毒的数据库。布鲁姆过滤器可以保证找到所有与数据库相匹配的代码,但它也会记录一些假阳性。
"比方说,你已经确定了一条错误信息,你想确保它不会在推文中传播,"Shrivastava说。
"Bloom过滤器可以让你非常快速地检查推文,在百万分之一秒或更短的时间内。如果它说一条推文是干净的,它不符合你数据库中任何错误信息,那就100%保证。因此,没有机会OK'ing一个已知的错误信息的推文。但Bloom过滤器会在一小部分时间内标记无害的推文。"
使用机器学习来增强Bloom过滤器的功能
在过去的三年内,研究人员提供了各种使用机器学习来增强Bloom过滤器并提高其效率的方案。语言识别软件可以被训练成识别和批准大多数推文,减少需要用Bloom过滤器处理的数量。
使用机器学习分类器可以降低过滤数据所需的计算开销,让企业在同样的资源下,用更少的时间处理更多的信息。
"当人们今天使用机器学习模型时,他们浪费了很多来自机器学习模型的有用信息,"Dai说。
典型的方法是设置一个容忍度阈值,并将所有低于该阈值的信息发送到Bloom过滤器。如果置信度阈值是85%,这意味着分类器认为80%置信度安全的信息与它只确定10%的信息接受同样程度的审查。
"即使我们不能完全依赖机器学习分类器,但它仍然为我们提供了有价值的信息,可以减少布鲁姆过滤器资源的数量。"Dai说。
"我们所做的是对这些资源进行概率应用。当分类器只有10%的信心时,我们给予更多的资源,而当它有20%的信心时,我们给予的资源就会稍微少一些,以此类推。我们把分类器的整个频谱,用可以从Bloom过滤器分配的整个资源来解决。"
Shrivastava表示,Ada-BF对内存需求的减少直接转化为实时过滤系统的容量增加。
"我们需要一半的空间,"他说。"所以基本上,我们可以用同样的资源处理两倍的信息。"