首页 理论教育大数据隐私保护技术及机制

大数据隐私保护技术及机制

【摘要】:(一)大数据隐私保护技术1.匿名处理匿名是最早提出的隐私保护技术,将发布数据表中涉及个体的标识属性删除之后发布。减少发布数据的数量,使大部分隐私数据不会发生泄露,同时随着样本容量的减少,对原始数据的分析工作量增加。(二)大数据隐私保护机制隐私保护机制的模式一般分为交互模式和非交互式模式。非交互式场景主要研究的是如何设计高效的隐私保护发布算法使发布的数据既能够保证数据的实用性还能保护数据拥有者的隐私。

(一)大数据隐私保护技术

1.匿名处理

匿名是最早提出的隐私保护技术,将发布数据表中涉及个体的标识属性删除之后发布。基于数据匿名化的研究是假设被共享的数据集中每条数据记录均与某个特定个体相对应,且存在涉及个人隐私信息的敏感属性值,同时,数据集中存在一些称为准标识符的非敏感属性的组合,通过准标识符可以在数据集中确定与个体相对应的数据信息记录。如果直接共享原始数据集,攻击者如果已知数据集中某个体的准标识符值,就可能推知该个体的敏感属性值,导致个人隐私信息泄露。基于数据匿名化的研究目的是防止攻击者通过准标识符将某一个体与其敏感属性值链接起来,从而实现对共享数据集中的敏感属性值的匿名保护。

2.概化(泛化)/抑制

概化是指发布数据不显示一些属性的细节,但发布数据和原数据语义一致,也就是将一些数据进行适当变形,使变形后的数据相比原始数据具有较少的信息含量,以避免成功的推理攻击,同时较好地保证了数据的统计特性和可用性。抑制是完全不显示部分(或所有)记录的一些属性值,这样会减少匿名表中的信息量,但是在某些情况下能够减少泛化数据的损失,达到相对较好的匿名效果。

泛化的主要方法有如下几种:二元搜索、完全搜索和先验的动态规划等,它们能够减少各种数据的信息损失,但是仍然不可避免地产生不必要的损失。

3.取样方法

取样就是抽样,抽样是指发布后的结果数据中并不包括所有的原始数据,而是原始数据的部分样本。减少发布数据的数量,使大部分隐私数据不会发生泄露,同时随着样本容量的减少,对原始数据的分析工作量增加。抽样方法要求在采样过程中尽量多地保存原始数据集中的有用信息,提高数据的可用性,也就是用于发布的数据只是总样本中的一个子集。但此方法不适合于广泛应用,同时也存在基于样例数据的推理攻击破坏行为。

4.微聚合

微聚合是指将原始数据集中属性取值接近的多条记录聚合在一起形成簇,每一个簇组成一个等价类。将每一个簇计算出用来代表这个簇的聚合值(通常是将原始数据集聚合成大小相同的簇,每个簇使用其属性平均值作为此簇的聚合值),在发布的时候只发布聚合值,从而降低了隐私泄露的风险。微聚合是适合于处理数量型数据的方法,也就是将几个值进行合并或抽象而成为一个粗糙集

5.数据交换(www.chuimin.cn)

数据交换是指将原始数据中不同记录的某些属性值进行交换,将交换后的数据用来发布以达到保护隐私的目的,其核心是在保证统计属性在一定程度不变的前提下,通过交换数据值使得交换后的数据无法与原始记录对应,提高了数据的不确定性。但是如何在交换过程中尽可能多地保持原始数据集的统计信息,特别是原始数据某些子集上的统计信息是当前数据交换技术研究的重点,也就是单个记录间值的交换。

6.扰动/随机

扰动是指在原始数据中加入一些噪音数据,使新数据与原始数据产生差异,从而减少了隐私攻击的可能性。插入噪音数据是一种常用的数据扰动技术,其最大的优点是可以通过分析原始数据集的数据相关性,在扰动的过程中添加与之相符的噪音,从而保证新数据集中的数据相关性与原始数据基本保持一致。插入噪音数据的核心思想是在保持原始数据相关性和统计不变的前提下,通过降低某一具体条目上的信息准确性来降低隐私推理攻击,一般噪音越大隐私保护度越高,但数据的实用性越小。插入噪音数据方法,适合于处理数量型数据,对于范畴型数据会产生较大的噪音。如何选取合适的噪音强度是插入噪音数据技术研究的主要问题。

7.位置变换和映射变换

位置变换和映射变换相对加密算法来说较为简单,很多时候前两者也是后者的一个组成部分。但是由于其算法简单,所以运算速度相对较快,在一些已经得到了较多保护的情况下更为高效。位置变换从本质上来说可以归纳为一类只有算法,没有密钥的加密算法。它通过一定的算法,实现对明文中相应位或字的位置转换,从而保护了隐私信息。而映射变换是通过一个代码表,将客户隐私信息转换为另外一个内部代码,由于映射变换可以通过关系数据库的SQL进行批量转换,所以在数据库系统中使用较多。

(二)大数据隐私保护机制

隐私保护机制的模式一般分为交互模式和非交互式模式。交互式模式(在线查询)可认为是一个可信的机构(如医院)从记录拥有者(如病人)中收集数据并且为数据使用者(如公共卫生研究人员)提供一个访问机制,以便于数据使用者查询和分析数据,即提供一个接口从访问机制返回的结果通常被机制所修改以便保护个人隐私。当数据分析者通过査询接口提交査询Q时,数据拥有者会根据查询需求,设计满足隐私要求的査询算法,经过隐私保护机制过滤后,把含噪音结果返回给用户。由于交互式场景只允许数据分析者通过查询接口提交查询,查询数目决定其性能,所以其不能提出大量查询,一旦查询数量达到某一界限(隐私预算耗尽),数据库关闭。

在非交互式模式(离线发布)的数据发布者用特定技术处理后的数据集。数据分析者对发布的数据进行数据挖掘分析,得出噪音结果。非交互式场景主要研究的是如何设计高效的隐私保护发布算法使发布的数据既能够保证数据的实用性还能保护数据拥有者的隐私。

二者比较:在交互式框架中,数据所有者从未向研究者公布原始数据,因此他们始终掌控着他们的数据,相对于非交互式框架,访问控制在这种框架中很容易被执行;研究人员也必将从交互式框架中获利,在这框架中,他们现在可以对数据集的所有领域进行灵活的查询;在非交互式框架中,一旦数据被发布,数据所有者将失去对数据的控制。