1. 首页 >人工智能 > 正文

新工具简化了数据共享 保护了隐私

导读 认识X公司。X公司生产了一种受欢迎的产品,每天有数百万人(实际上是数百万人)在使用。某天,X公司决定要改进其产品(由供应商Y生产)中的某些

认识X公司。X公司生产了一种受欢迎的产品,每天有数百万人(实际上是数百万人)在使用。某天,X公司决定要改进其产品(由供应商Y生产)中的某些硬件。要进行这些改进,公司需要与供应商Y共享有关其客户如何使用该产品的数据。

不幸的是,这些数据可能包含有关X公司客户的个人信息,因此共享它们将侵犯他们的隐私。X公司不想这样做,因此他们放弃了改进机会。

根据卡内基梅隆大学CyLab和IBM研究人员撰写的一项新研究,一种新工具可以帮助规避数据共享中的隐私问题。在当今的大数据世界中,公司,组织和政府都必须处理这个问题。这项研究将在本周的ACM Internet Measurement Conference上进行介绍,并在该会议的最佳论文奖中入围。

一种用于避免破坏隐私的方法是合成模仿原始数据集的新数据,同时保留敏感信息。但是,这说起来容易做起来难。

研究人员团队创建了一个名为“ DoppelGANger”的新工具,该工具利用了生成对抗网络或GAN,后者利用机器学习技术来合成与原始“训练”数据具有相同统计数据的数据集。

在他们评估的数据集上,使用DoppelGANger生成的合成数据训练的模型比使用来自竞争工具的训练的合成数据的模型高多达43%的准确性。

如今,大多数工具都需要复杂数学建模方面的专业知识,这为跨不同专业知识水平的数据共享创造了障碍。但是,由于GAN本身能够跨不同的数据集和用例进行概括,因此DoppelGANger几乎不需要数据集及其配置的先验知识。研究人员说,这使该工具具有高度的灵活性,而灵活性是网络安全情况下数据共享的关键。

CyLab的ECE教授和Lin的共同顾问Vyas Sekar说:“我们相信,未来的组织将需要灵活地利用所有可用数据,以便对日益增长的数据驱动和自动攻击环境做出反应。” “从这个意义上说,任何促进数据共享的工具都是必不可少的。”

CyLab的Giulia Fanti,欧洲经委会教授和林博士。联合顾问还认为该工具对安全工程师很有帮助。

Fanti说:“合成网络数据可用于帮助为网络安全工程师创建现实的培训测试平台,而无需暴露真实,敏感的数据。”

团队的下一步是扩展工具的功能,因为尽管性能出色,但仅限于相对简单的数据集。

Lin说:“许多网络数据集比DoppelGANger当前所能处理的复杂得多。”

对于那些对使用该工具感兴趣的人,DoppelGANger在Github上开源。该研究部分由美国国家科学基金会和陆军研究实验室赞助。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!