曾经,“没有人知道你是互联网上的狗。”
现在,“你站在桥上看风景,看风景的人在楼上看你。”
我们无处藏身。
由于不可思议的隐私泄露,Netflix被同性恋用户起诉。
20062000年,公司发布了约50万用户的1亿份租赁记录,包括用户的评分和评分日期,并奖励了100万美元,希望通过软件设计吸引工程师提高其电影推荐系统的准确性。Netflix在这样做之前,数据已经匿名了,但这个名字“匿名”同性恋用户还是被认出。
匿名化不能保护隐私数据?在数据容易裸奔的科技时代,匿名化刚刚给了大家一个安心丸,“打脸”来得这么快?来得这么快?来得这么快??来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?来得这么快?
事实上,匿名和隐私在理论概念上是完美的融合,但在技术和应对方案上,融合并不像预期的那么简单。
匿名的前世今生
匿名数据的社会意识近年来应该日益传播,但事实上,技术层面的想象力和实践早已开始。
1997年,美国学者总是先走实验室。Samarati和Sweeney提出了k-anonymity匿名模型为各种技术解决方案的后续出现开创了先例。当然,数据匿名的话题更多的是技术界的狂欢节。
随着近年来大数据和智能技术的发展和渗透,数据泄露、隐私侵犯等问题日益突出,受影响的群体几何增长。一方面,数据作为智能时代的基石,不可能因窒息而完全放弃。另一方面,政府、企业和个人继续受到这个问题的困扰,市场模式也容易波动,不利于长期发展。
此时,匿名技术已经成为一个妥协的解决方案。然而,数据匿名需要技术投资,如果只由企业主观驱动,效果有限。因此,在整个匿名数据的发展中,真正打破僵局的是法律领域的关注。
最具代表性的是让互联网企业心有余悸GDPR。2018年正式实施GDPR,将个人数据的保护提高到前所未有的高度,也对数据处理企业等主体施加了非常严格的保护义务和法律责任。其中之一,GDPR在确定处理方法和处理过程中,控制器应采取适当的技术和组织措施,如假名化(pseudonymisation)处理,将额外数据与个人数据分别保存,除非使用额外数据,否则个人数据无法指向特定数据主体。
显然,GDPR白纸黑字地将个人数据的保护提升到法律层面,清晰了以往数据使用过程中涉及的大部分暧昧区域。此外,真正的威慑力是它“残忍”惩罚。众所周知,如果科技巨头越雷池一步, GDPR真的会开天价罚单。
最有趣的案例是,GDPR生效的第一天“开门红”,起诉了两大科技巨头:Facebook谷歌。两家公司被指控强迫用户同意共享个人数据,并分别面临罚款39亿欧元和37亿欧元(约88亿美元)的风险。
当然除了GDPR,所有政府都出台了严格的个人数据保护法。例如,英国更新了数据保护法案,并对个人数据给予了重视。中国还出台了《数据安全法》草案,明确了保护责任。FTC在2012年发布的隐私保护指南中,扩大了个人数据的边界,突破了传统定义中与特定自然人的联系,扩展到用户使用的设备标志。
在这种情况下,对于企业来说,天价罚单是割肉的痛苦,政府的监管是不可逾越的红线。此外,用户隐私保护意识的觉醒也是不可推卸的需求。
GDPR还提到了匿名化的定义:“匿名化是指将个人数据移除到可识别个人信息的部分,以此方式不再识别数据主体。匿名数据不属于个人数据,机构可以自由处理匿名数据”。
匿名数据已成为许多企业或数据应用主体的关键投资方向。一些行业专家表示,匿名数据收集主要用于帮助公司发现产品错误,这是通过分析非个人识别信息来改善整体产品体验的最常见的解决方案之一。
数据匿名的“bug”
那么,常见的数据匿名方法是什么呢?广义上可分为两类:一种是扰动模式,即使数据集不完整,通过记录个人层面的数据真实性来改变净化数据集中报告数据值的粒度,如数据抑制和数据泛化。上述内容k-anonymity匿名模型是非扰动的重要方法。它需要一定数量的发布数据(至少是k) 在准标志符上不可分割的记录,使攻击者无法判断隐私信息的具体个体,从而保护个人隐私。
匿名数据一直在发展,问题逐渐暴露。“道高一尺魔高一丈”,匿名在一定程度上保护了隐私,但“有心人”身份仍然可以从匿名数据中确认。
2016第三十三届德国研究员Chaos Computer Club会上公布了自己的研究成果:虽然是匿名点击流,但也可以找到用户清晰的肖像,不到十个域名就足以暴露给你。这些数据被称为匿名外衣“Dark Data”,这是一个很容易滋生邪恶的新孕育地。
另外,去年,英国Nature Communications该杂志发表的一项研究表明,英国科学家发现,一个人的身份可以从一个不完整的匿名数据库中识别出来。研究人员开发了一种机器学习模型,使用三种信息:邮政编辑、性别和出生日期。81%的概率是“匿名”数据集中准确跟踪某人。
事实证明,数据匿名方法不仅面临着自身技术迭代更新的压力,而且对新技术产生了持续的影响。例如,人工智能算法可以使用零星数据来培养更准确的用户肖像。
基于区分隐私的方案
道路又长又长。目前,法律、市场和技术都为数据匿名做了一定的基础设施建设,下一步是需要更多的投资和更新。首先,从参与角色的角度来看,仍需要政府组织的领导,从法律层面对整个业务形式施加强制标准化的压力,企业需要更多的资源进行匿名建设,个人需要提高网络隐私意识的日常细节,如有意识地使用匿名浏览器,及时清理cookie和Web数据等,
此外,从技术角度进行迭代更新。针对安全性不足的数据匿名现状,基于差异化隐私的数据匿名隐私保护模型已经出现了研究。差异化隐私(differential privacy)它是密码学的一种手段,旨在在从统计数据库查询中最大限度地提高数据查询的准确性,减少识别其记录的机会。
事实上,差异隐私也使用了统计学。该技术可以实现:向一个人的使用习惯样本增加噪声,以确保数据相对模糊和匿名。随着越来越多的人表现出相同的使用习惯,他们开始识别和总结共性。一个人的数据可能不准确,但大量用户的数据可以得出相对准确的结论。在这种情况下,即使有人攻击了数据库,他们也只能看到系统的共同信息,而不能准确识别特定的个人信息。Facebook、华为正在使用该技术来帮助探索其大量用户的使用习惯。
值得一提的是,《MIT在2020年科技评论评选的十大突破技术中,差分隐私榜上有名。
然而,由于差异隐私是一项仍在探索中的技术。门槛很高,所以投资成本也想要更高。其处理过程对人力资源的需求很大,但也带来了新的问题,许多人的干预和隐私保护也会有一定的冲突。为了解决这个问题,市场上的一些企业注入了自动机器学习的方法。
显然,解决隐私保护问题必须是多学科、多技术流派的融合。
唯一不变的是变化,“安全是一个动态话题”这很常见,数据隐私的安全性也是如此。匿名数据只是为当前裸数据运行问题提供了一个相对清晰可行的解决方案,而不是绝对安全的保护屏障。我们所能做的就是随着变化而改变,甚至走在变化的前面。