合成数据在未来的用处是什么？_金融商务

合成数据在未来的用处是什么？_金融商务_银行AI

每年，世界产生的数据都比前一年多。据国际数据公司（internationaldatacorporation）估计，仅在2020年，就将有59 zettabytes的数据被“创建、捕获、复制”，足以填满约1万亿个64gb的硬盘。

但仅仅因为数据的激增并不意味着每个人都可以使用它们。公司和机构出于对用户隐私的正当考虑，常常限制对数据集的访问，有时是在他们自己的团队中。现在由于新型冠状病毒流感大流行已经关闭了实验室和办公室，阻止人们访问集中的数据存储，安全地共享信息就更加困难了。

没有数据访问，很难制造出真正有效的工具。输入合成数据：开发人员和工程师可以将人工信息替代真实的数据。

合成数据有点像减肥汽水。为了有效，它必须在某些方面与“真实事物”相似。无糖苏打饮料的外观、口感和起泡性都应该像普通苏打水一样。同样，合成数据集必须具有与其所代表的真实世界数据集相同的数学和统计特性。”AI（DAI）实验室数据的首席研究员、麻省理工学院信息与决策系统实验室的首席研究科学家Kalyan Veeramachaneni说：“它看起来很像，格式也很像。如果它在模型中运行，或者用于构建或测试应用程序，那么它的性能就像真实世界的数据一样。

但正如减肥汽水的卡路里含量应该比普通汽水少一样，人工合成的数据集在关键方面也必须与真实的数据集有所不同。例如，如果它基于一个真实的数据集，它就不应该包含甚至暗示来自该数据集的任何信息。

穿这根针很棘手。经过多年的工作，Veeramachaneni和他的合作者最近发布了一套开源数据生成工具，这是一个一站式的工具，用户可以从中获取项目所需的数据。他们称之为合成数据仓库。

在维护隐私的同时最大限度地提高访问权限

Veeramachaneni和他的团队在2013年首次尝试创建合成数据。他们的任务是分析来自在线学习项目edX的大量信息，并希望引进一些麻省理工学院的学生来帮助他们。Veeramachaneni说，这些数据是敏感的，不能与这些新员工分享，因此研究小组决定创建人工数据，学生们可以使用这些数据，而不是设想“一旦他们编写了处理软件，我们就可以在真实数据上使用它”。

这是一种常见的情况。假设你是一个与医院签约的软件开发人员。您被要求构建一个仪表板，让患者访问他们的测试结果、处方和其他健康信息。但是你不能看到任何真实的病人数据，因为这是私人的。

DAI实验室的研究员Carles Sala说，在这种情况下，大多数开发人员都会对他们需要的数据进行“非常简单化的版本”，并尽最大努力。但当仪表板启动时，很有可能“一切都崩溃了”，他说，“因为有些边缘情况他们没有考虑到。”

高质量的合成数据和它所要替代的一样复杂，将有助于解决这个问题。公司和机构可以自由分享，使团队能够更有效地合作。开发人员甚至可以在他们的笔记本电脑上随身携带，因为他们知道他们不会将任何敏感信息置于危险之中。

早在2013年，Veeramachaneni的团队给了自己两周时间来创建一个可以用于edX项目的数据库。Veeramachaneni说“时间线看起来很合理。”但我们完全失败了。”他们很快意识到，如果他们建立一系列的合成数据生成器，他们可以让其他人更快地完成这个过程。

2016年，该团队完成了一项算法，该算法能够准确地捕捉真实数据集（比如患者的年龄、血压和心率）中不同字段之间的相关性，并创建了一个合成数据集来保存这些关系，而无需任何识别信息。当数据科学家被要求使用这些合成数据来解决问题时，他们的解决方案在70%的时间内与使用真实数据生成的解决方案一样有效。该团队在2016年IEEE数据科学和高级分析国际会议上展示了这项研究。

在下一次循环中，小组深入到机器学习工具箱。2019年，博士生徐磊在温哥华举行的第33届神经信息处理系统大会上介绍了他的新算法CTGAN。CTGAN（用于“条件表生成对抗性网络”）使用GAN来建立和完善综合数据表。Xu说，Gan是一对神经网络，它们“互相竞争”。第一个网络称为生成器，在本例中创建一行合成数据，第二个网络称为鉴别器。

“最终，生成器可以生成完美的（数据），而鉴别器无法分辨两者的区别，”徐说。Gan更常用于人工图像生成，但它们也适用于合成数据：在Xu的研究中，CTGAN在85%的案例中表现优于经典的合成数据创建技术。

统计相似性至关重要。但是，根据数据集所代表的内容，数据集还具有自己重要的上下文和约束条件，这些内容必须保存在合成数据中。DAI实验室的研究人员Sala举了一个酒店账本的例子：客人总是在入住后结账。合成酒店预订数据集中的日期也必须遵循这一规则：“它们必须按正确的顺序排列，”他说。

大型数据集可能包含许多这样的不同关系，每个关系都是严格定义的。”Veeramachaneni说：“模型无法学习这些约束，因为这些约束条件非常依赖于上下文。”因此，该团队最近完成了一个界面，允许人们告诉合成数据生成器这些界限在哪里。”数据是在这些限制条件下生成的，”Veeramachaneni说。

这样精确的数据可以帮助许多不同行业的公司和组织。荷兰国际集团金融服务公司（ING financial services）的团队负责人维姆·布尔马尔特（Wim Blommaert）说，银行业日益数字化，加上新的数据隐私规则，“引发了人们对生成合成数据方法的日益浓厚的兴趣”。他说，目前的解决方案，比如数据屏蔽，往往会破坏银行用来做决定的有价值的信息。像SDV这样的工具有可能避开数据的敏感方面，同时保留这些重要的约束和关系。

Veeramachaneni说，这个合成数据仓库将该组织迄今为止构建的所有东西整合成“一个完整的生态系统”。其理念是，从学生到专业软件开发人员，利益相关者都可以到保险库来获取他们需要的东西。

保险库是开源的，可扩展。”萨拉说：“我们意识到，在许多不同的领域，我们也可以使用合成数据。例如，如果一个特定的群体在一个样本数据集中表现不足，那么可以使用合成数据来填补这些空白——这是一个需要大量技巧的尝试。或者公司也可能希望使用合成数据来规划他们还没有经历过的场景，比如用户流量的大幅增加。

参考文献：Modeling Tabular Data using Conditional GAN. arXiv:1907.00503 [cs.LG] arxiv.org/abs/1907.00503。

合成数据在未来的用处是什么？

相关资讯