第2章 去标识

去标识(de-identification)是指从数据集中删除标识信息的过程。有时会将去标识这一术语与匿名(anonymization)和假名(pseudonymization)这两个术语看作同义词,表达相同的概念。

学习目标

阅读本章后,你将能够:

●定义并理解下述概念。

■去标识。

■重标识。

■标识信息/个人标识信息。

■关联攻击。

■聚合与聚合统计。

■差分攻击。

●实施一次关联攻击。

●实施一次差分攻击。

●理解去标识技术的局限性。

●理解聚合统计的局限性。

我们尚不能严谨地定义什么是标识信息。通常将标识信息理解为在日常生活中可以唯一标识我们自己的信息。从这个理解角度看,姓名、地址、电话号码、电子邮箱等都属于标识信息。稍后将会了解到,不可能为标识信息给出严谨的定义,因为所有信息都可以用来标识个体。一般来说,个人标识信息(Personally Identifiable Information,PII)和标识信息这两个术语是同义词,表达相同的概念。

如何才能对信息去标识?很简单,直接移除包含标识信息的列就可以了。

我们将数据中一部分个体的标识信息保留下来,随后将把这些保留的标识信息作为辅助数据(auxiliary data)来实施一次重标识(re-identification)攻击。