首页 理论教育云安全:面向数据失真的隐私保护

云安全:面向数据失真的隐私保护

【摘要】:差分隐私[20] 差分隐私是微软研究院在2006年提出的一种新隐私保护模型。由于差分隐私的诸多优势,使其一出现便迅速取代传统隐私保护模型,并引起了理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。数据接收方对转换后的数据进关联规则挖掘,仅能挖掘出非隐秘性数据集。

基于数据失真的技术通过添加噪声和交换等技术对原始数据进行扰动处理,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。常用方法如下[17]

(1)数据变换法[18] 通过降低原数据中私有信息的支持度或置信度至某个阈值来实现隐私数据保护。在实际操作中往往是通过删除或增加数据项来达到此目的。

(2)凝聚技术[19] 将原始数据分类,每类中包含k个数据,然后生成每类数据的统计信息,包括均值和方差等。这样所有扰动后的数据可以使用通用重构算法进行处理,同时不会泄露原始数据的隐私。

(3)差分隐私[20] 差分隐私是微软研究院在2006年提出的一种新隐私保护模型。其主要贡献是:①定义了一个相当严格的攻击模型,不关心攻击者拥有多少背景知识,即使攻击者已掌握除某一条记录之外的所有记录信息,该记录的隐私也无法被披露;②对隐私保护水平给出了严谨的定义和量化评估方法。由于差分隐私的诸多优势,使其一出现便迅速取代传统隐私保护模型,并引起了理论计算机科学数据库、数据挖掘和机器学习等多个领域的关注。

(4)数据干扰法[21] 通过加入噪声数据,使数据无法辨认以保护真实的原始数据。利用数据干扰法后,原始数据中将存在一定的干扰数据,所以即便某数据项被链接到某特指的个体也不会完全暴露数据的真实值,因此不会泄露私有信息。(www.chuimin.cn)

数据干扰法是目前采用最多的方法。使用此方法进行隐私数据保护的基本步骤是:首先数据发送方需要先在原始数据中进行关联规则挖掘;然后由专家对挖掘结果进行鉴定,将结果集区分为隐秘性及非隐秘性数据;接着利用干扰技术对原始数据内容进行转换,即修改与隐秘性数据样本相关的原始数据内容,借此将隐秘性数据加以隐藏而达到保护效果;最后再将转换后的数据对外公开。数据接收方对转换后的数据进行关联规则挖掘,仅能挖掘出非隐秘性数据集。其过程如图5-2所示。

978-7-111-53353-5-Chapter05-2.jpg

图5-2 数据干扰法操作示意