使用机器学习从匿名手机数据中提取个人信息
诺伊理工学院的一个研究小组使用机器学习和人工智能算法从匿名手机数据中提取了个人信息,特别是受保护的年龄和性别等特征,引发了有关数据安全的问题。
该研究由诺伊理工大学三位教授组成的跨学科团队进行,其中包括计算机科学研究副教授VijayK.Gurbani;马修·夏皮罗,政治学教授;和社会科学副教授YuriMansury。诺伊理工大学校友LidaKuang(MSCS'19)和SamrudaPobbathi(MSCS'19)加入了他们的行列,他们与Gurbani一起在PLOSOne中发表了“通过网络遥测预测年龄和性别:对隐私的影响和对政策的影响”.
研究人员使用来自拉丁美洲一家手机公司的数据,通过他们的私人通信,相对轻松地成功地估计了个人用户的性别和年龄。
该团队开发了一个神经网络模型,以67%的准确率估计性别,其性能明显优于决策树、随机森林和梯度提升模型等现代技术。他们还能够使用相同的模型以78%的准确率估计单个用户的年龄。
“年龄和性别信息似乎确实无害,但人们以邪恶的方式使用这些信息,很多时候会带来毁灭性的后果,”夏皮罗说。
“当有恶意的人针对幼儿进行任何事情时,从销售到性掠夺,这违反了许多旨在保护未成年人的法律,例如《儿童在线隐私保》和HIPAA。在年龄范围的另一端,鉴于老年人的易感性和获得储蓄的机会,他们成为复杂的垃圾邮件和网络钓鱼攻击的目标。”
这些信息是使用常用的计算设备推断出来的。该团队使用具有16GB内存的Linux(Fedora)操作系统和具有四个内核的Inteli5-6200UCPU来运行神经网络模型。
“我们用于这项工作的笔记本电脑根本不是独家的,”古尔巴尼说。“对于资源充足的对手来说,将有更强大的机器可用,包括访问集群计算,其中多台计算机配置在一个集群中,为AI/ML模型提供计算能力。”
用于进行研究的数据集尚未公开,但Gurbani表示,对手可以通过公共Wi-Fi热点捕获数据或攻击服务提供商的计算基础设施来收集类似的数据集。
“正如我们在论文中提到的那样,不幸的是,此类攻击确实发生了,而且并不罕见,”古尔巴尼说。“收集这些数据的过程并不容易,但也并非不可能。”
这篇论文的目的是开启一场对话,批判性地审视新兴机器学习和人工智能技术对隐私法规的影响。美国没有全国性的隐私法规,因此研究人员研究了这些技术如何削弱欧盟的通用数据保护条例文章,这些文章旨在保护消费者免受迫在眉睫的隐私侵犯威胁。
Gurbani说:“机器学习和自动化决策将成为业务流程的主流,这是无法逃避的现实。”“当前的问题是如何使用适当的监管框架保护个人隐私以及社会和经济利益免受欺诈。”
Mansury说,做到这一点的一种方法是为消费者提供“选择退出选项”,以便在安装应用程序时保持其个人信息的私密性。
建议包括对机器学习模型使用合成数据而不是用户观察,让数据持有者与机器学习专家合作开发最佳实践,建立一个允许用户选择退出数据共享以保护个人信息隐私的监管框架,以及更新现有的不合规协议。换句话说,要解决政策差距以及人工智能的伦理问题,还有很多工作要做。
标签: