首页 理论教育云安全深度剖析:隐私保护应用实践

云安全深度剖析:隐私保护应用实践

【摘要】:限制发布是指有选择的发布数据或者发布精度较低的数据以实现对数据隐私的保护。有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。基于限制发布的隐私保护技术主要包括K-Anonymity、L-Diversity和T-Closeness。因此在这K组数据中,用户的隐私得到有效的保护,其身份被泄露的概率将不大于1/K。

限制发布是指有选择的发布数据或者发布精度较低的数据以实现对数据隐私的保护。目前的研究主要集中于数据匿名化,即有选择地发布敏感数据。有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。

基于限制发布的隐私保护技术主要包括K-Anonymity、L-Diversity和T-Closeness。

1998年卡内基梅隆大学的Sweeney和Samarati在PODS国际会议上提出了K-Anonymity技术保护个体的隐私信息并给出了实现方法[16,22]。它的基本思想是针对隐私保护中链接攻击所带来的用户真实身份信息泄露的情况,通过对数据的匿名化来打乱用户与数据组之间的映射关系从而实现数据的隐私保护。一般是通过抑制和泛化方法实现,使得数据记录分成多个至少含有K条数据记录的等价组,这样一来该等价组内的任意一条数据都无法与其他K-1条有效地区分开来。因此在这K组数据中,用户的隐私得到有效的保护,其身份被泄露的概率将不大于1/K。通常情况下,K的取值越大,等价组越大,从而用户泄露隐私的概率就越小,隐私保护的力度就越高。

K-Anonymity技术作为数据匿名化技术的代表方法,提出后得到了学术界的普遍关注,很多研究者从不同层面上发展该技术。2002年,Seweney又提出了K-Anonymity隐私保护模型;同年,他在参考文献[23]中阐述了实现K-Anonymity技术的泛化和隐匿方法。2004年,Williams等人证明最佳的K-Anonymity问题为NP难问题[24]。随后,研究者相继提出许多启发式和近似算法[25]。(www.chuimin.cn)

K-Anonymity模型虽然在一定程度保证了隐私性,但是依然存在很多无法适用的领域,研究者们有针对性地提出了许多改进模型。例如美国康奈尔大学的Ashwin Machanavaj Jhala等人在2006年发现了K-Anonymity的缺陷,即没有对敏感属性做任何约束,攻击者可以利用背景知识攻击、再识别攻击和一致性攻击等方法来确认敏感数据与个人的关系,导致隐私泄露。为了防止一致性攻击,参考文献[22]提出了新的隐私保护模型——L-Diversity模型。其主要思想就是针对K-Anonymity容易受到背景知识攻击的弱点,提出在形成的每一组等价类中,对于敏感属性至少有L个不同的取值。因此,即使通过背景知识攻击得知某用户属于一个等价类,获得用户敏感属性的概率也不会大于1/L,无法准确确定其敏感属性的值,即该模型能防止因某一等价组中所有或大部分记录具有相同的敏感属性值时造成隐私泄露。

参考文献[26]提出的T-Closeness则要求发布的数据集在满足K-Anonymity的同时,还必须保证等价组内敏感属性值的分布与敏感属性值在匿名化表中的总体分布的差异不超过T。显然,T-Closeness在L-Diversity的基础上,要求所有等价类中敏感属性的分布尽量接近该属性的全局分布。