印度裔研究员Anshumali Shrivastava发现了一种新的机器学习方法,可以过滤社交媒体上的虚假新闻该方法以一种更智能的方式应用了机器学习,以改善布隆过滤器的性能。布隆过滤器是半个世纪前设计的一种广泛使用的技术。
赖斯大学印度裔美国计算机科学家Anshumali Shrivastava领导的美国研究人员团队使用机器学习(ML),发现了社交媒体公司防止错误信息在线传播的有效方法。
他们的方法以更智能的方式应用了机器学习,以改善Bloom滤波器的性能,Bloom滤波器是半个世纪前设计的一种广泛使用的技术。
Shrivastava和统计专业的研究生Dai Zhenwei使用伪造的新闻故事和计算机病毒的测试数据库,显示出他们的自适应学习型Bloom过滤器(Ada-BF)所需的内存减少了50%,才能达到与Learn Bloom过滤器相同的性能水平。
为了解释他们的过滤方法,Shrivastava和Dai引用了Twitter的一些数据。
这家社交媒体巨头最近透露,其用户每天增加约5亿条推文,这些推文通常在用户点击发送后一秒钟出现在网上。
Shrivastava说:“在选举期间,他们每秒收到约10,000条推文,而一秒钟的延迟大约是每毫秒六条推文。”
“如果您想应用一个过滤器来读取每条推文,并用已知为伪造的信息标记这些推文,则您的标记机制不能慢于6毫秒,否则您将落在后面而永不追赶。”
如果发送标记的tweet进行额外的手动审核,则低假阳性率也至关重要。换句话说,您需要最大程度地减少错误标记的真实推文数量。
“如果您的假阳性率低至0.1%,那么即使您错误地将每秒10条推文(或每天超过80万条)标记为要人工审核,” Shrivastava说。
“这就是为什么大多数传统的仅使用AI的方法禁止控制错误信息的原因。”
在仅在线的2020年神经信息处理系统大会(NeurIPS 2020)上进行的一项研究中概述了扫描社交媒体的新方法。
Shrivastava表示,Twitter并未透露其过滤推文的方法,但据信它们采用了Bloom过滤器,Bloom过滤器是1970年发明的一种低内存技术,用于检查特定数据元素(例如一段计算机代码)是否是其中的一部分已知元素集的集合,例如已知计算机病毒的数据库。
布隆过滤器可以确保找到与数据库匹配的所有代码,但它也会记录一些误报。
Shrivastava指出:“ Bloom过滤器使您可以在百万分之一秒或更短的时间内非常快速地检查tweet。如果说tweet是干净的,则表明它与您的错误信息数据库中的任何内容都不匹配,这是100%保证的。”
在过去三年中,研究人员提供了各种使用机器学习的方案,以增强Bloom过滤器并提高其效率。“当人们今天使用机器学习模型时,他们浪费了许多来自机器学习模型的有用信息,”戴说。