从脸书数据泄露谈起:社交中如何保护隐私-社交媒体的专栏

从脸书数据泄露谈起:社交中如何保护隐私

2018-04-12 16:25:54栏目：默认栏目 IP属地：IP未知

撰文 | 朱廷劭中国科学院心理研究所研究员

　　2018年3月17日当地时间，美国纽约时报和英国观察者报（英国卫报的周日版）共同发布了深度报道，” The Cambridge Analytica Files”，称Facebook上超过5000万用户信息数据被一家名为Cambridge Analytica（剑桥分析）的公司不当获取，用于在2016年美国总统大选中对目标受众进行精准信息投放，可能影响到大选结果。这篇报道在世界范围内引发了轩然大波，并不断发酵至今，也引起人们对社交网络数据隐私保护的热切关注。

　　事情起因于剑桥大学的心理学讲师Aleksandr Kogan通过一款用于科研的Facebook应用（thisisyourdigitallife）收集了约27万用户的数据记录，并通过好友关系抓取了共5000万名Facebook用户数据。Facebook宣称Kogan后来将这些数据转手卖给了第三方，其中就包括剑桥分析公司。剑桥分析通过对Facebook数据挖掘获取选民的心理特点，进而有针对性地为特朗普投放竞选广告，由此辅助特朗普赢得2016美国大选，从而名声大噪。事件曝光后在媒体和网络上持续发酵，报道中遭到个人数据泄露的用户数量在不断放大，甚至有媒体宣称挖到了“通俄”线索，Facebook股价也随之大跌，一时众说纷纭，好不热闹。

　　在热闹与震惊背后，这一事件触及了在以社交网络为代表的大数据时代，用户数据应该被如何使用的一些关键问题。这些问题在近年来社交网络心理学研究中被不断提及，在学术界也已有若干讨论与共识。巧合的是，这次事件的起源恰恰有可能与对科研伦理的违背有关。下面我们来逐一分析。

　　网络上没有留下个人关键信息，隐私还可能泄露吗？

　　随着网络的普及，人们对于网络信息的安全性愈加关注，不会轻易把个人的关键信息放在网上。但纵然如此，隐私真的就万无一失了吗？2006年6月，Pass等人在香港举办的一个国际会议上发表了”A Picture of Search”的论文，并将文中使用的美国在线2006年3月1号到5月31号的搜索日志公开，包括1900万次搜索、1080多万搜索词以及65万余匿名化处理后的用户ID。虽然这些数据中已经将用户信息删除，但是有的搜索本身就含有个人隐私性质。一些搜索记录可能与特定的人能够相联系，纵然用户ID已经被匿名化处理，但是从某个用户ID所做的一系列搜索，仍然有可能找到这个用户的真实身份。纽约时报记者根据搜索数据轻易地找到一位62岁的老太太，这个老太太证实那些列出的搜索关键词确实是她的。事后，这个研究小组被解散，并最终导致AOL首席技术官引咎辞职。个人隐私的泄露除了自己主动放到网上被他人不当获取之外，通过对网络留痕的分析，也可以对一些比较隐私的个人关键信息（如年龄性别等）进行有效推断。

　　人们在社交网络上的一举一动，都是性格特点与内心状态等心理特征的某种反映。个人往往不需要在社交网络上直接写下“我是××性格的人”，只要对社交网络的日常使用积累到一定数量，科学家就能够运用人工智能技术，通过其在社交网络上日常展示的信息自动计算出心理特征，目前在Facebook/Twitter以及微博上相关研究也证实了这种个人心理特征自动获取的可行性。如果我们在社交网络上展示的内容足够丰富，对我们心理特征的计算可以做到很准确，甚至能超过家人对我们的了解程度。这些心理特征可能对许多应用有重要的指导作用，比如可以根据用户的心理特征来推荐他感兴趣的内容，带来更佳的用户体验；又比如可以根据这些心理特征有针对性地投放广告，提高宣传的效果，而这正是Cambridge Analytica公司据称在英国脱欧和美国大选中所做的事情。

　　运用类似的方法，通过社交网络行为数据还有可能识别出个体的性取向、政治倾向、价值观等通常意义上更“敏感”的个人信息。而在其他一些只反映某种特定行为的数据集上，如利用匿名之后的信用卡刷卡的地点记录，用户的身份更是很容易被定位。因此，只隐去传统意义上的个人关键信息，在人工智能和大数据的配合下，可能我们的隐私反而会以一种更深刻的形式泄露出去。

　　当然，利用人工智能技术算出上述个人特征的前提，是掌握了此人足够多的数据。如果此人在社交网络上留下的有效行为数据不够多，那再厉害的算法也无能为力。而且，我们可以在社交网络平台上为自己所展示的内容设定不同的私密等级，比如把有些内容设置为只有好友可见，这样一来，如果没有我们的授权，陌生人就不能获得这些数据。因此通常而言，在社交网络上获得大量用户的、足够准确计算其中每个人心理特征的数据，并不是一件容易的事。

　　社交网络App被允许收集用户数据，理应更好地服务于大众

　　社交网络上的第三方App的一个共同特点，就是需要用户授权，授权App服务的提供者（比如本次事件中的Kogan团队）获取用户在社交网络上发表的各种数据。如果用户想要使用这项App服务，那就必须对其授权。事实上，所有社交网络平台都允许这样的App存在，并提供相应的开发接口，因为只有如此，社交网络才能具有丰富多彩的功能和不断提升的用户体验。通常App访问用户数据的目的，是为实现和提升其服务功能，例如我们想让App推荐附近的餐馆，自然要允许它访问我们的位置信息。不只社交网络，搜索引擎、电商、网络媒体等各种网络平台功能与体验的提升，都依赖于对用户数据的收集分析。换句话说，网络用户允许自己的数据在某种程度上被分析和利用，也是享受到更多、更好服务的必然前提。

　　同时，社交网络中积累的海量用户行为数据，是科学研究的资源宝库。合理分析利用这些数据，能够获得大量关于人类行为与心理的新知，不仅能有力促进心理学、社会学等基础学科和人工智能技术的发展，更能为解决诸如心理健康、自杀等实际挑战带来新的曙光。社交网络行为数据由大众自发产生，也应当被用于旨在增进大众福利的探索与实践。

　　怎样利用这些数据才是可以接受的？

　　在Facebook事件曝光之后，不仅公众反应强烈，互联网巨头们也纷纷表态强调对用户隐私的保护，表达了“隐私是基本人权”、“数据是个人资产”、“保护信息安全是公司责任”等原则性观点；同时，他们也指出了让数据得到合理利用而不被浪费的重要性。那么，怎样利用这些数据才是可以接受的？就操作层面而言，关键是保障用户对数据被使用的知情权与选择权。

　　Facebook事件之所以成为公众无法接受的丑闻，核心在于公众对自己的数据用于干预选举并不知情，更谈不上同意。从目前的公开报道来看， Kogan团队和Facebook公司对这一局面的形成可能都负有一定责任：如果Aleksandr Kogan对其App用户声称数据收集只用于科研目的，由此获得了用户授权，但之后却把数据或分析结果卖给了第三方，则这一行为明显违背了科研伦理；如果Facebook在明确得知以科研名义获取的数据被挪作他用之后没有及时采取措施，则也应承担相应责任。更重要的是，据报道2015年之前Facebook在App权限的管理规则上存在漏洞，造成Kogan的App在只有27万用户授权的情况下能够获取约5千万用户的数据，这种数据量上的扩增是导致“一个App可能影响大选”的重要原因。

　　事实上，从人工智能技术最早在科研中被用于分析社交网络数据的那一刻起，学术界就已经开始了对相关伦理标准的探讨，并已达成了基本共识：基于社交网络的行为心理研究同样应当遵守人类被试研究的一般伦理原则，使用需要用户授权的数据必须征得用户的知情同意，并严格按照经由伦理委员会审核批准的程序进行，尤其不能将研究数据用于伦理委员会批准范围之外的目的（如转卖给第三方）。即便是使用不需用户授权的公开网络数据，在用于科研时也应同时满足以下四项标准：

　　（1）用户对数据公开是知情的；

　　（2）数据收集后应匿名处理；

　　（3）研究中不存在与用户的互动和沟通；

　　（4）在公开发表物中不得出现能够识别用户个人身份的信息。

　　上述伦理原则对网络行为数据在非学术领域的使用也具有借鉴意义。无论我们以何种名义，都应该确保用户对自己数据被使用的知情权和选择权，任何形式的越厨代庖都是对用户的不尊重，最终也必然被用户所抛弃。

　　怎样避免类似事件再次发生？

　　社交网络满足了人们的诸多需求，它的普及乃是大势所趋，人工智能的发展和应用更是人类技术与产业进步的希望所在。我们不可能也不应该因噎废食，因存在个人隐私泄露的风险而废止社交网络、禁止对社交网络数据的分析和利用。我们真正需要做的，是用制度和规则来规范对网络平台用户数据的使用，使之在法律和道德的框架之内有序运行，这样才能避免类似丑闻再次发生，保证网络行为数据这一由大众产生出的宝藏最终服务于增进大众的福祉、促进人类进步。

　　对基于社交网络的科学研究应当予以鼓励，但必须与其他传统研究领域一样，在严格的科研伦理标准和有效的违规惩戒机制下运行。研究人员要谨遵知情同意原则和隐私保护原则，在从数据到成果的整个流程中都采取有效措施避免用户的利益受到侵害。如果研究项目有商业机构的参与，尤其需要谨慎处理。

　　为保障普通用户的知情权和选择权得以充分落实，一方面网络平台须在功能上充分满足用户知情同意的要求，如在用户授权之前提供充足的说明，提供方便的隐私设定选项等，尤其要在数据管理规则上与用户授权的等级严格匹配；另一方面也应对普通网络用户进行必要的知识普及。当用户在社交网络上展示自我、享受关注与互动的同时，应当充分意识到自己的行为数据根据自身设定的私密等级，处于不同程度的暴露状态，并将基于自己的授权而为社交网络平台和各种第三方所分析和利用。

　　相信随着Facebook数据泄露事件的真相逐步厘清，不管是对科研伦理的违反还是数据安全管理的疏漏，终将有着明确的责任认定和惩戒方案。而在这个互联网大数据时代，如何让人工智能更好地造福于人，而不是带来烦恼甚至危险，这依然需要紧随技术发展的脚步，不断开展持续深入地讨论，并在实践中不断修正。