然而,危险并不局限于个人隐私泄露,还可能利用大数据对我们的行为进行挖掘、分析与预测。因此,随着大数据时代的来临,对隐私的定义也发生了改变。大数据时代的隐私主要是指公民个人的秘密,包括个人的行为、习惯和心理状态等。由此可见,这种需要明白告知并参与决定的个人数据支配权,是大数据时代保护个人隐私的重要机制之一。......
2023-11-18
(一)大数据隐私保护技术
1.匿名处理
匿名是最早提出的隐私保护技术,将发布数据表中涉及个体的标识属性删除之后发布。基于数据匿名化的研究是假设被共享的数据集中每条数据记录均与某个特定个体相对应,且存在涉及个人隐私信息的敏感属性值,同时,数据集中存在一些称为准标识符的非敏感属性的组合,通过准标识符可以在数据集中确定与个体相对应的数据信息记录。如果直接共享原始数据集,攻击者如果已知数据集中某个体的准标识符值,就可能推知该个体的敏感属性值,导致个人隐私信息泄露。基于数据匿名化的研究目的是防止攻击者通过准标识符将某一个体与其敏感属性值链接起来,从而实现对共享数据集中的敏感属性值的匿名保护。
2.概化(泛化)/抑制
概化是指发布数据不显示一些属性的细节,但发布数据和原数据语义一致,也就是将一些数据进行适当变形,使变形后的数据相比原始数据具有较少的信息含量,以避免成功的推理攻击,同时较好地保证了数据的统计特性和可用性。抑制是完全不显示部分(或所有)记录的一些属性值,这样会减少匿名表中的信息量,但是在某些情况下能够减少泛化数据的损失,达到相对较好的匿名效果。
泛化的主要方法有如下几种:二元搜索、完全搜索和先验的动态规划等,它们能够减少各种数据的信息损失,但是仍然不可避免地产生不必要的损失。
3.取样方法
取样就是抽样,抽样是指发布后的结果数据中并不包括所有的原始数据,而是原始数据的部分样本。减少发布数据的数量,使大部分隐私数据不会发生泄露,同时随着样本容量的减少,对原始数据的分析工作量增加。抽样方法要求在采样过程中尽量多地保存原始数据集中的有用信息,提高数据的可用性,也就是用于发布的数据只是总样本中的一个子集。但此方法不适合于广泛应用,同时也存在基于样例数据的推理攻击破坏行为。
4.微聚合
微聚合是指将原始数据集中属性取值接近的多条记录聚合在一起形成簇,每一个簇组成一个等价类。将每一个簇计算出用来代表这个簇的聚合值(通常是将原始数据集聚合成大小相同的簇,每个簇使用其属性平均值作为此簇的聚合值),在发布的时候只发布聚合值,从而降低了隐私泄露的风险。微聚合是适合于处理数量型数据的方法,也就是将几个值进行合并或抽象而成为一个粗糙集。
5.数据交换(www.chuimin.cn)
数据交换是指将原始数据中不同记录的某些属性值进行交换,将交换后的数据用来发布以达到保护隐私的目的,其核心是在保证统计属性在一定程度不变的前提下,通过交换数据值使得交换后的数据无法与原始记录对应,提高了数据的不确定性。但是如何在交换过程中尽可能多地保持原始数据集的统计信息,特别是原始数据某些子集上的统计信息是当前数据交换技术研究的重点,也就是单个记录间值的交换。
6.扰动/随机
扰动是指在原始数据中加入一些噪音数据,使新数据与原始数据产生差异,从而减少了隐私攻击的可能性。插入噪音数据是一种常用的数据扰动技术,其最大的优点是可以通过分析原始数据集的数据相关性,在扰动的过程中添加与之相符的噪音,从而保证新数据集中的数据相关性与原始数据基本保持一致。插入噪音数据的核心思想是在保持原始数据相关性和统计不变的前提下,通过降低某一具体条目上的信息准确性来降低隐私推理攻击,一般噪音越大隐私保护度越高,但数据的实用性越小。插入噪音数据方法,适合于处理数量型数据,对于范畴型数据会产生较大的噪音。如何选取合适的噪音强度是插入噪音数据技术研究的主要问题。
7.位置变换和映射变换
位置变换和映射变换相对加密算法来说较为简单,很多时候前两者也是后者的一个组成部分。但是由于其算法简单,所以运算速度相对较快,在一些已经得到了较多保护的情况下更为高效。位置变换从本质上来说可以归纳为一类只有算法,没有密钥的加密算法。它通过一定的算法,实现对明文中相应位或字的位置转换,从而保护了隐私信息。而映射变换是通过一个代码表,将客户隐私信息转换为另外一个内部代码,由于映射变换可以通过关系数据库的SQL进行批量转换,所以在数据库系统中使用较多。
(二)大数据隐私保护机制
隐私保护机制的模式一般分为交互模式和非交互式模式。交互式模式(在线查询)可认为是一个可信的机构(如医院)从记录拥有者(如病人)中收集数据并且为数据使用者(如公共卫生研究人员)提供一个访问机制,以便于数据使用者查询和分析数据,即提供一个接口从访问机制返回的结果通常被机制所修改以便保护个人隐私。当数据分析者通过査询接口提交査询Q时,数据拥有者会根据查询需求,设计满足隐私要求的査询算法,经过隐私保护机制过滤后,把含噪音结果返回给用户。由于交互式场景只允许数据分析者通过查询接口提交查询,查询数目决定其性能,所以其不能提出大量查询,一旦查询数量达到某一界限(隐私预算耗尽),数据库关闭。
在非交互式模式(离线发布)的数据发布者用特定技术处理后的数据集。数据分析者对发布的数据进行数据挖掘分析,得出噪音结果。非交互式场景主要研究的是如何设计高效的隐私保护发布算法使发布的数据既能够保证数据的实用性还能保护数据拥有者的隐私。
二者比较:在交互式框架中,数据所有者从未向研究者公布原始数据,因此他们始终掌控着他们的数据,相对于非交互式框架,访问控制在这种框架中很容易被执行;研究人员也必将从交互式框架中获利,在这框架中,他们现在可以对数据集的所有领域进行灵活的查询;在非交互式框架中,一旦数据被发布,数据所有者将失去对数据的控制。
有关计算机网络与信息安全的文章
然而,危险并不局限于个人隐私泄露,还可能利用大数据对我们的行为进行挖掘、分析与预测。因此,随着大数据时代的来临,对隐私的定义也发生了改变。大数据时代的隐私主要是指公民个人的秘密,包括个人的行为、习惯和心理状态等。由此可见,这种需要明白告知并参与决定的个人数据支配权,是大数据时代保护个人隐私的重要机制之一。......
2023-11-18
在显示个人化广告时,不会将Cookie或匿名标识符与敏感类别建立联系。但这通常需要获得用户同意,否则不会将Cookie数据与身份识别数据合并使用。数据应在保留期结束时以安全的方式被销毁。除法律另有规定外,企业如将个人数据向第三方公开,至少应当确保接收这些数据的企业承担遵守法案原则的合同义务。......
2023-11-18
差分隐私[20] 差分隐私是微软研究院在2006年提出的一种新隐私保护模型。由于差分隐私的诸多优势,使其一出现便迅速取代传统隐私保护模型,并引起了理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。数据接收方对转换后的数据进关联规则挖掘,仅能挖掘出非隐秘性数据集。......
2023-11-18
目前,对于隐私保护的研究主要包含两个方面。有关云计算的隐私安全保护技术已经成为学术界和产业界关注的热点话题之一。参考文献[9]总结了云计算数据安全、法律法规和不同国家标准等相关的隐私争议。参考文献[10]调查了多种因素影响云计算隐私和安全问题。比如,ISO/IEC提出了一种隐私保护框架,该框架的主要内容包括了隐私保护过程中涉及的角色、数据信息、术语、隐私泄露风险、隐私保护需求和隐私保护原则等。......
2023-11-18
对比上述三项隐私保护技术可知:基于数据加密的隐私保护技术虽然能够保证数据良好精确性和安全性,但却会消耗较多的资源,导致实用性偏差;基于数据失真的隐私保护具有较高的应用效率,但却会导致部分的数据信息丢失;而这也正是基于限制发布的隐私保护技术的缺陷所在。......
2023-11-18
因而要实现用户隐私的有效保护,需要各方共同采取强有力措施来积极应对。例如,扩大隐私保护范畴,将数据采集、数据分析等大数据的处理和利用过程纳入法律法规范畴,形成保护个人隐私的长效机制。[7]第二,完善对数据库海量信息综合运作的监管体系,明确触犯隐私红线的惩处方式。......
2023-10-20
2009年的《侵权责任法》首次将隐私权保护作为独立条款予以确认。2017年10月生效的《民法总则》不仅明确规定了对隐私权的保护,还明确提出“自然人的个人信息受法律保护”。时至今日,隐私权保护已经成为国际共识。在大数据时代,隐私权被扩大解释为一种公民所拥有的数字权利,但隐私权保护和个人信息数据保护之间还是存在一定的区别。GDPR还设计了对未成年个人信息的特殊保护以及对敏感个人信息的限制处理。......
2023-10-20
限制发布是指有选择的发布数据或者发布精度较低的数据以实现对数据隐私的保护。有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。基于限制发布的隐私保护技术主要包括K-Anonymity、L-Diversity和T-Closeness。因此在这K组数据中,用户的隐私得到有效的保护,其身份被泄露的概率将不大于1/K。......
2023-11-18
相关推荐