数据的匿名化或保护个人隐私的困难
2020-04-23 18:05:00 来源:科技日报
原始标题:数据的匿名化或保护个人隐私的困难
通过只知道有限的属性,你能在数据海洋中准确地识别自己吗?根据英国杂志《自然通讯》 23日发表的一项研究,英国科学家使用了一种新开发的统计方法来评估一个人的身份是否可以从一个不完整的匿名数据库中被识别出来。结果表明,目前的匿名化和数据共享方法可能不足以保护个人隐私或满足数据保护法律法规的要求,如欧盟《通用数据保护条例》 (GDPR)。
数据科学和人工智能有望改变我们日常生活的各个方面,如医疗、医疗保健、商业和治理。这些方法依赖于大规模详细的个人数据,但是个人数据的收集和共享已经引起了对个人隐私的关注。为了解决这个问题,当前的解决方案包括匿名化和发布不完整的数据集。然而,最近发生的案例中,使用匿名数据集,包括浏览历史、移动电话和信用卡数据,成功地重新识别了个人,这表明上述措施是不够的。
为了进一步证明这个问题的严重性,英国帝国理工学院的研究小组开发了一种新的统计方法,该方法可以通过匿名数据集准确地估计正确地重新识别个人的可能性。研究人员发现,即使数据集不完整,也只需要几个属性,如邮政编码、出生日期、性别和子女数量,就可以高置信度地识别——个个体。然而,已知的属性越多,识别的可能性就越大。例如,马萨诸塞州99.98%的人口可以通过15个人口统计属性来识别。
因此,研究小组得出结论,目前只公布抽样数据集或不完整数据集的做法不足以保护个人隐私。
总编辑圈
人工智能比人类的想象更强大,而我们比自己的想象更简单。只有少数数据能识别数据的所有者,这让我们担心:在全知机器前,人们还有隐私吗?经过反复分析,我们脆弱的尊严还能维持吗?大型数据库可以造福和威胁普通人。是时候认真讨论数据时代的信息伦理了。未来的公民需要法律来确保安全。