什么是数据匿名化?它有效吗?
什么是数据匿名化,它有效吗?
发布于 2022年10月27日,由 Kristin Hassel 撰写
无论是科技迷还是非科技迷,现在大家都对在线安全非常关注,毕竟我们的设备几乎是全天候粘在身边。我们用它们来处理工作、购物、游戏和流媒体观看。我们的财务数据和个人信息对很多不同的实体都是可用的。
数据匿名化让应用程序和科技公司能够与用户建立信任。知道我们的数据对他人不可接触,确实让我们安心,但数据匿名化真的有效吗? 跟我一起了解数据匿名化是什么,它是如何运作的,以及您可以采取什么措施来保持在线安全。
目录什么是数据匿名化?常见的数据匿名化方法数据屏蔽与加密 假名化 通用化 数据交换 扰动 合成数据 差分隐私 数据匿名化有效吗?您能逆转数据匿名化吗?所有国家都有数据保护法吗?为什么 VPN 是数据匿名化的最佳解决方案常见问题
什么是数据匿名化?
数据匿名化的核心目的在于去除或更改数据集,排除个人可识别信息PII。许多大型操作在应用任何形式的数据匿名化技术之前,都需要使用副本数据库。另一方面,个人可以通过使用具有强大加密功能的 VPN 来匿名化自己的在线数据。
为了更好地理解其工作原理,我们来深入了解一些最常用的数据匿名化方法。
尝试私人互联网访问
常见的数据匿名化方法
数据匿名化存在多种形式。要涵盖所有技术及其所有变体可能需要很长时间尤其是因为新的变体仍在不断开发中。相反,可以查看以下一些最常见的数据匿名化方法,包括一些用例和示例。
数据屏蔽与加密
屏蔽和加密都会实时修改正在访问的数据。这很重要,因为原始数据可能包含敏感用户信息,如 IP 地址、设备数据、位置信息等。加密通常被视为一种数据屏蔽形式,但它是一种独立的数据匿名化技术。虽然数据屏蔽和数据加密相似,但它们的处理过程不同。
数据屏蔽会移除敏感信息的特定部分,并用具有相同结构但不同值的数据替代。数据加密则使用特定的算法将数据加密。网络犯罪分子可能能够访问数据,但没有密钥就无法阅读。
普通人匿名化数据最便宜的方法是使用具有高级 AES 加密的 VPN。
同态加密在大规模数据匿名化中被认为更为优越。 例如,政府实体控制的数据。该过程将信息加密,使其不可读,同时仍然可以进行操作。之后可以解密,但只有数据控制者才能进行。
假名化
用虚假标识符替换关键信息,或假名化,是另一种流行的匿名化形式。例如,333 Bloomberg Avenue 可能被替换为 345 Cherry Lane,或者Fred Tuney 可能改为 Jasper Bing。这是一种创造性的方法,可以确保您的敏感数据保持私密。就像作者使用笔名或演员使用艺名以获得更多隐私只是在线数据会规模更大、更复杂。
通用化
该技术省略部分数据,使剩余信息不那么可识别。您可以移除如年龄或地址等敏感信息,并用随机集替代或将其更改为“未知”,而不损害数据的整体准确性。
假设 Ted 收到了一家盲约服务的电子邮件,内容包括:Jane Bertram,453 225th Street,明尼阿波利斯,明尼苏达州,40岁。使用通用化,内容会变成:Jane,225th Street,明尼苏达州3245岁。这样的变化不会影响接收者看到的内容,但如果数据被拦截,没有人会获取这些信息。
数据交换
数据交换是一种数据混淆方式,类似于加密,但不那么复杂。数据交换会打乱属性值,使改变后的结果与原始数据集不匹配。1990年,美国普查局在数次成功模拟后使用数据交换进行了十年一度的人口普查数据交换。
按照特定的 k 变量集,普查记录在一个个块之间进行了交换。包括匹配变量和块总的 (k p 1)way 边际保持不变。另一方面,具有其他变量的表格的边际在制表期间可能随时会变化。
到 2000 年人口普查时,CB 在确保带有更高泄露风险的识别记录也被纳入交换方面已作出了调整。
扰动
医院使用数据扰动方法来保护敏感的电子健康信息EHI。这是一种添加随机噪声或数理方法通常是几何,以在数据库中造成干扰的数据挖掘形式。 实施数据扰动所需的时间使其对小公司或个人而言不够经济有效。
扰动可能比较复杂,需要精确控制。如果所选的基数与您造成的扰动不成比例,数据可能未能正确匿名化。 更糟的是,您可能会使数据完全无法使用。
合成数据
创建合成数据或虚假数据,几乎就像在玩数独。它需要使用原始数据集中的模式或特征,以算法的方式创建一个新的数据集,而不修改现有数据。原始数据集保持不变,因为改变它可能会破坏其完整性数独中这就属于作弊。
合成数据的应用领域相当广泛,其中有几个突出的例子展示了这种匿名化技术的灵活性。亚马逊利用合成数据匿名化来训练 Alexa 的自然语言理解NLU系统,而金融服务提供商如摩根大通和美国运通则利用它来帮助检测欺诈。
差分隐私
使用差分隐私方法包括模糊特定数据点,以平均数据集。这使得反匿名化数据几乎不可能,因为报告的是虚假的用户/客户信息。
苹果和优步使用这一数据匿名化方法来减少用户/客户信息在任何层面上被公开的可能性。为了尽可能有效,差分隐私方法必须由经验丰富的专业人员执行。
蜜蜂加速器下载匿名化的优缺点
优点 缺点 降低数据操作者剥削用户信息的风险。 数据的匿名化通过为用户提供心理安慰,增加了信任度。 持续分析和数据监管。 防止数据丢失和潜在泄露。 省略数据属性限制了用户的洞察力。 由于洞察力有限,更新和补丁可能需要更长时间来创建。 使用错误的匿名化形式会导致数据暴露、损坏或损坏。
数据匿名化有效吗?
这可以是有效的。数据匿名化的有效性取决于所选的技术,以及是否正确执行该技术。一些方法需要极高的精确度。一次错误可能导致没有数据被匿名化,或者在这个过程中某些数据被破坏,或者错误的数据被匿名化。
此外,推翻数据匿名化作为有效工具的举动,也可能是“大科技”防止完全匿名化的一种方式,因为这将意味着失去依赖这些信息的数据经纪人的收入。
至少,许多应用开发者和搜索引擎,如谷歌,在全面匿名化的情况下会受到影响。尽管谷歌以“安全掩盖数据”为傲,但它收集的一些数据并不总是匿名化的更糟的是,用户对改变这些数据几乎没有控制权。
幸运的是,对隐私侵害性应用程序的反应正在上升。例如,MicroG 项目旨在通过为用户提供一些大型谷歌服务的隐私友好替代方案,改变谷歌的数据收集垄断。
您能逆转数据匿名化吗?
有时可以逆转数据匿名化,但这并不像某些人所认为的那样简单。您通常需要三样东西 来逆转数据匿名化:
知识/培训,知道该寻找什么,充足的时间,数据集必须是可获得的,或在法律上可出售的公共数据。所有这些都是足够容易的,企业确实出售或交易匿名化数据,甚至一些主要公司,比如 Experian。尽管如此,大多数关于逆转数据匿名化的研究并未考虑人为错误。这是一个重大疏忽,因为在匿名化过程中,由于错误可能导致数据的可逆性。另一方面,即使知道您的数据可能被任何具有技术背景和资金的人反匿名化,这也是令人不安的。
根据许多研究人员的说法,大多数数据匿名化方法并不符合当前立法的要求,如通用数据保护条例GDPR或加州消费者隐私法案CCPA。以下是一个完美的例子,说明公司在执行数据匿名化时的疏忽,如何导致数据暴露:
研究员Latanya Sweeney合法获得了匿名化的医疗记录,其中包括患者的约诊、住院事件、手术、费用和付款方式,并随后利用报纸档案对数据进行逆匿名化。她无法通过医疗记录获得患者的姓名和地址,但邮政编码是公开的。利用独特的邮政编码,她将该地区报纸中报道的事故与患者档案进行了交叉对照。Sweeney 直接将 43 的报道与患者档案连接在一起。由于报纸通常会包括受伤方的名字和姓氏,因此她可以进行地址查找。基本上,35 名患者的所有数据都被逆匿名化。
这引出了一个问题,是否存在 真正 有效的数据匿名化方法?
哪些数据匿名化方法最有效?
对于大公司而言,最有效的数据匿名化方法是差分隐私、同态加密和合成数据。这些方法被认为是匿名化敏感信息的最安全方式,因为它们的脱匿名化机会最低。以下是一些使用这些方法的公司的例子:
差分隐私:苹果、谷歌和优步同态加密:微软和英特尔合成数据:制药公司、医院和实验室普通人增加在线匿名性的最简单有效的方法是使用具有极高强度加密的 VPN。这样,您至少知道自己在尽力保护敏感的在线数据在传输过程中的安全。
除了 AES 加密,PIA 还提供 OpenVPN 和 WireGuard 协议的访问,并包含一个 Kill Switch。安全协议防止未授权的来源访问您的网络数据。我们的高级 Kill Switch 还可以防止在突然断开 VPN 时的数据泄露。
增加您的匿名性
所有国家都有数据保护法吗?
预计到2023年,65的全球人口将拥有数据个人保护法。2021年,联合国贸易和发展会议宣布有137个国家已经通过了某种形式的数据和隐私立法。这意味着在所有国家都拥有数据保护法之前还有一段路要走。
像瑞典、法国和爱尔兰等欧盟国家拥有一些最全面、最严格的数据隐私法规。其他国家,包括埃及和巴西,也在个人数据保护的立法上紧随其后。
并非所有国家提供平等或足够的数据隐私保护。令人惊讶的是,尽管是硅谷的家乡,美国在制定全面、全国性的数据隐私法方面仍然不足。
欧盟包含了许多严格隐私保护法的国家。
适合每个人的数据匿名化解决方案
希望实施这些方法以匿名化客户或员工数据的公司,首先必须准确确定他们希望保护的信息。许多数据匿名化方法都是耗时的,并且实施这些方法可能会很昂贵。 在采取任何行动之前,公司应该考虑以下几点:
您拥有的数据类型。您使用数据的目的。您需要遵循的任何法律要求。确保解决方案尽可能持久。确保您有合适的内部或外包专业人员执行您选择的匿名化技术。仅仅希望在访问账户、支付账单或在线购物时提高匿名性的普通人也有选择。一种有效的匿名化个人数据的解决方案是 VPN。VPN 是一种易于实施的匿名化解决方案,适合每个人使用。
PIA 让您在两种坚不可摧的 AES 加密形式之间进行选择,提供数据匿名化服务。您还无需为每个设备购买许可证,因为 PIA 允许您同时连接 10 个设备。
获取私人互联网访问
常见问题
数据匿名化与数据屏蔽是同一回事吗?
不,数据屏蔽是一种数据匿名化技术。 它移除某些敏感数据片段,并用类似结构但具有不同值的数据替换。虽然数据匿名化确实使用了诸如加密、替代、假名化和屏蔽等方法来掩盖数据,但这些过程彼此之间是不同的。
数据匿名化的有效性如何?
如果执行得当,数据匿名化是有效的,并且在大多数情况下是不可逆的。如果您拥有一家企业并想保护敏感的客户和员工信息,那么数据匿名化是一个很好的工具。成功的匿名化可以帮助增加客户/员工的信任,并在数字时代提供急需的安心。对于个人用户,PIA VPN可以帮助您在任何网络上保持在线隐私。我们使用安全的传输协议,比如WireGuard,提供高级 Kill Switch 以防止数据泄露,并具有高级拆分隧道功能。
Anonymous 数据能被反匿名化吗?
是的,在某些情况下可以,但这取决于使用的技术以及匿名化是否正确执行。如果您删除密钥,已加密的数据是可以被反匿名化的,但需要由创建密钥的人来执行。其他形式的匿名化可以使用特殊技术和数据集访问进行反转。因为这很困难,且在大多数情况下恢复的数据变得无用,许多 IT 专业人员认为数据匿名化对普通网络犯罪分子来说是不可逆的。
在数据匿名化方面,VPN 应该具备哪些特性?
在数据匿名化方面,VPN 最重要的特性是高级加密。PIA 提供极为强大的加密,包括 256 位 AES这是美国军方用来保护敏感数据的加密方式。您还可以使用我们一体化的广告追踪和恶意软件阻止器 MACE,从而进一步保护自己,免受窥探和不必要软件下载的侵扰。