研究人员为数据挖掘中发现的敏感专有模式提供隐私保护
研究人员在数据挖掘过程中提高了隐私和专有信息或其他敏感信息的保护,同时不影响在庞大数据集中发现有用模式的能力。该技术由重庆大学的一对计算机科学家开发,在《大数据挖掘与分析》杂志上发表的一篇文章中进行了描述。
数据挖掘、在非常大的数据集中发现模式(通常涉及机器学习)以及出于有用目的共享该信息经常会遇到障碍,因为此类数据模式是专有的、破坏隐私或危及安全性。然而,这种数据共享或发布有助于进一步发现有益于这些数据集所有者和整个社会的有用模式。
考虑一种非常常见的数据挖掘算法,用于发现大型数据集中变量之间的潜在有用关系:关联规则挖掘。关联规则挖掘的经典(可能是虚构的)示例涉及超市销售的大型数据集,其中发现购买尿布的男性顾客也倾向于购买啤酒。这里的“规则”是啤酒、尿布和男性顾客的关联。根据此规则,超市经理可以为同时购买啤酒和尿布的人提供折扣套餐。
但是,如果竞争对手使用超市共享的已发布数据集来发现这个“规则”以增强进一步的模式发现,他们可以通过提供相同的折扣策略从原来的超市抢走顾客。因此,“尿布即啤酒”规则具有商业敏感性,需要在超市愿意发布其数据供其他人使用之前受到保护。
换句话说,如果要鼓励更多的数据共享,就需要有一种方法允许对非敏感关联规则(NAR)进行数据挖掘,同时防止数据挖掘发现敏感关联规则(SARS)。
为了解决敏感的关联规则问题,研究人员过去曾提出通过在发现后在任何数据集共享之前简单地隐藏敏感信息来保护敏感信息。这是通过降低数据集中任何暗示关联规则的数据出现的频率来实现的。然而,这不是很实用,因为任何时候只能保护一个这样的SAR,而且该技术无论如何都不能提供强大的数据隐私。
其他研究人员试图将SAR问题转化为单一目标优化问题——为特定标准找到最佳解决方案。这加强了数据隐私,但降低了数据集的效用。另一种方法是在对数据集执行任何数据挖掘之前对数据进行加密,但这可能非常耗时,尤其是在特别大的数据集上实施时——这些数据集更有可能发现感兴趣的模式。
因此,重庆研究人员希望找到一种解决方案,既能降低隐私泄露的可能性,又能提高数据效用,同时限制这种技术所需的时间。
他们的解决方案,他们称之为“可挖掘数据发布的优化清理方法”,或简称为SA-MDP,认识到任何SAR问题的解决方案都需要在数据效用和数据隐私之间找到一个可接受的折衷方案,而不是解决一个问题。或另一个独立。这是一个多目标优化问题,而不是一个单目标优化问题——必须优化多个目标。虽然从物流到工程的许多领域经常面临这样的问题,但它们本质上是棘手的。想要在方便的一天找到最便宜的机票、最舒适的座位、最短的旅程、最少的停留时间的旅行者面临着一个多目标优化问题。挑战在于,没有一种单一的解决方案可以同时优化这些目标中的每一个。相反,可能有许多,甚至可能有无数个同样好的最佳“候选”解决方案。
对于SA-MDP,研究人员设计了一种定制的“粒子群优化”(PSO)算法来有效地解决这个多目标优化问题。PSO方法是一种受生物学启发的算法,最初是在1990年代由研究人员发现的,旨在模拟鸟群或鱼群等成群结队的动物的社会行为。但研究人员发现,他们的算法实际上是在执行优化计算来解决群体问题。在PSO下,一大群候选解决方案在“搜索空间”(算法搜索的集合)中被视为像鸟群中的鸟一样的粒子。根据控制粒子的一些基本数学规则在搜索空间内移动这些粒子
为了提高SA-MDP的探索能力,该技术还引入了粒子分裂的概念,使一个粒子可以产生多个“子粒子”。
为了加快这个过程,该方法涉及一种新的预处理机制,可以删除任何不相关的事务,从而可以减小搜索空间的大小。
在设计了新方法后,研究人员随后在此类测试中常用的几个公开可用的数据集上对其进行了测试——一组国际象棋动作、一个用于将其分类为可食用或有毒的蘑菇属性数据集,以及一系列点击流(序列点击的链接数)网站的访问者。他们发现他们的技术很容易击败竞争对手。
“我们的方法提供了与隐藏敏感关联规则的标准方法相同的隐私保护,但具有更好的数据实用性,同时还能减少运行时间,”重庆大学计算机科学家、该论文的合著者廖晓峰说。他的博士生范阳。
他们将这些结果与用于隐藏敏感关联规则的布谷鸟搜索优化算法或COA4ARH的结果进行了比较,COA4ARH是一种在数据挖掘时用于隐藏敏感关联规则(关联规则隐藏)的常用算法。
他们发现他们的方法提供了与COA4ARH隐藏敏感规则的能力相同的保护效果,并在生成有用的关联规则的能力上击败了它,同时将运行时间缩短了一半。
标签: