来看看X公司。X公司生产了一种受欢迎的产品,每天有数百万人(实际上是数百万人)在使用。某天,X公司决定要改进其产品(由供应商Y生产)中的某些硬件。要进行这些改进,公司需要与供应商Y共享有关其客户如何使用该产品的数据。
不幸的是,这些数据可能包含X公司客户的个人信息,因此分享这些数据将是对他们隐私的侵犯。X公司不愿意这样做,所以他们放弃了改进的机会。
根据卡内基梅隆大学CyLab和IBM的研究人员撰写的一项新研究,一种新的工具可以帮助规避数据共享中的隐私问题。在当今的大数据时代,公司、组织和政府都必须处理这个问题。这项研究在最近的ACM互联网测量会议上发表,并被提名为会议最佳论文的作品。
一种避免泄露隐私的方法是合成模仿原始数据集的新数据,同时将敏感信息剔除。然而,这说起来容易做起来难。
这个研究团队创造了一个新的工具,名为“DoppelGANger”,它利用了生成式对抗网络(GANs),它使用机器学习技术来合成数据集,这些数据集与原始的“训练”数据具有相同的统计数据。
在他们评估的数据集上,使用DoppelGANger生成的合成数据训练的模型比使用来自竞争工具的训练的合成数据的模型高多达43%的准确性。
当今的大多数工具都需要复杂数学建模方面的专业知识,这就为不同级别的专业知识之间的数据共享造成了障碍。然而,DoppelGANger对数据集和它的配置只需要很少或根本没有预先的知识,因为GANs本身能够泛化不同的数据集和用例。研究人员说,这使得该工具具有高度的灵活性,而灵活性是网络安全情况下数据共享的关键。
CyLab的Vyas Sekar说:“我们相信,未来的组织将需要灵活地利用所有可用的数据,以便能够对日益增长的数据驱动和自动化攻击做出反应。”Vyas Sekar是ECE的一名教授,也是Lin的共同顾问。“从这个意义上说,任何促进数据共享的工具都将是必不可少的。”
CyLab的Giulia Fanti是欧洲经济学院的教授,也是Lin博士的联合顾问,她也认为该工具对安全工程师有益。
Fanti说:“合成网络数据可以用来帮助为网络安全工程师创建现实的培训测试平台,而不会暴露真实的、敏感的数据。”
该团队的下一步是扩展工具的功能,因为尽管其性能卓越,但它仅限于相对简单的数据集。
Lin说:“许多网络数据集比DoppelGANger当前所能处理的复杂得多。”
对于那些对使用该工具感兴趣的人,DoppelGANger在Github上开源。这项研究部分由美国国家科学基金会(National Science Foundation)和陆军研究实验室(Army research Laboratory)资助。