大数据文摘作品
作者:钱天培、邱猛、龙牧雪、魏子敏
美国时间3月19日,星期一,facebook股价暴跌7%,一天内市值蒸发近400亿美元。在“数据泄露丑闻”发酵之下,这一暴跌并不意外。
上周五,特朗普(donald trump)聘用的一家政治ai公司剑桥分析(cambridge analytica),被曝非法将大约5千万facebook用户的信息用于大数据分析,从而精准刻画这些facebook用户的心理特征,并向他们推送定制广告,甚至假新闻。
这些用户信息由剑桥大学心理学系讲师aleksandr kogan通过app“thisisyourdigitallife”以学术研究为目的收集,但数据却被转移至第三方,即剑桥分析公司。
令人不解的是,facebook在2年前就已得知kogan的不当行为,并曾要求其销毁所有数据,但并未采取进一步行动,直到被媒体大规模曝光。
这起丑闻持续发酵,甚至被称作是“facebook、谷歌等科技巨头结束垄断的转折点”。
而据海外媒体vice一年前的一篇调查报道,这家政治ai公司或许还曾用同样的手段助推了“英国脱欧”事件。
心理学+大数据=颠覆世界
要了解这家公司的“数据魔术”,让我们先来了解其涉及到的一门有趣的学科——“心理测量学”。
大数据营销和个性化推荐早已不是什么新鲜事,但这家在当时尚不知名英国公司的分析方法的确有所不同。他们分析的是人的心理特征,而不是人口统计学特征。
基于人口统计学的选举拉票活动基于非常有限的数据信息:所有的女人因为她们的性别收到同样的信息,或者所有的非裔美国人因为他们的种族收到同样的信息。而当其他的选举活动还依赖于人口统计学的信息时,剑桥分析已经采用了心理测量学分析了。
“基于性别或种族来拉票的想法是荒谬的。我们的预测基于大五类人格(ocean)模型。”
剑桥分析将美国的人口分为32类性格特征,并集中关注17个州。基于一个app应用,每一位特朗普竞选团队的游说者都可以精准了解到每栋房子中的住户的性格、喜好,总之,他们对你会不会投票了如指掌。
早在2016年9月,剑桥分析公司的ceo alexander nix就曾在concordia summit(迷你版的世界经济论坛)上公开分享大数据和心理测量学助力选举的秘诀,演讲题目是:the power of big data and psychographics in the electoral process。
戳这里看演讲视频
这些都发生在剑桥分析被曝光非法使用facebook用户数据之前。
丑闻发生后,被曝帮助剑桥分析公司搜集数据的aleksandr kogan的简历已被迅速从剑桥大学官网撤下,只剩网页快照。
谷歌搜索“aleksandr kogan”结果,剑桥大学官网介绍页无法打开
网页快照显示aleksandr kogan任职于剑桥大学心理学系,研究领域涉及多种情感和心理健康,研究方法包括利用大规模数据集。
心理学和大数据,就这样被联系到了一起。
而早有人嗅到了可疑气息。
2017年1月,海外媒体vice曾发出一篇原载于das magazin的德语文章,作者hannes grassegger和mikael krogerus。
文章详细报道了剑桥大学心理测量中心的另一位研究员michal kosinski如何开发基于facebook点赞信息的大五类人格测试模型,而和剑桥分析有业务往来的kogan被认为从konsinski处获得了该研究方法,konsinski亦表示了对kogan及其与政治分析公司之间联系的担忧。
文章链接如下,感兴趣的读者可以自行查阅:
https://motherboard.vice/en_us/article/how-our-likes-helped-trump-win
michal kosinski现任斯坦福大学教授
剑桥大学心理测量中心:五类人格
本质上,“大数据”意味着我们在线上和线下的一切活动都会留下数字痕迹。我们的每一笔刷卡消费,每一次谷歌搜索,揣着手机时我们的每一个移动,每一次在社交媒体上点赞,都会被记录下来,并可能被用于针对性的营销。
举个例子,在我们刚搜索完“降血压”后,屏幕上就可能弹出降压药物的广告。
特朗普总统竞选活动的幕后推手,剑桥分析(cambridge analytica),正是这样一家“大数据”公司。而随着层层剖析,多家媒体也指出,它可能也曾参与英国脱欧。
让我们从2014年的剑桥大学心理测量中心开始说起。
心理测量学是一个由数据驱动的心理学分支,有时也被叫做心理图像学,主要致力于研究心理上的特征,比如人格。上世纪80年代,心理学家发展出了一种基于五种人格特征来评估人类的模型,就是著名的“大五类人格测试”。
“五类”人格分别是:
开放性(你对新的体验有多开放?)严谨性(你有多追求尽善尽美?)外向性(你有多爱好社交?)宜人性(你有多体贴,多容易合作?)神经质(你很容易沮丧吗?)
它们也被简称为ocean,即英语单词(openness, conscientiousness, extroversion, agreeableness, neuroticism)的首字母缩写。基于这些维度,科学家可以对人格类型做一个相对精准的评估。这些预估包括一个人的需求和恐惧,以及未来行动。
“大五类人格测试”已经成为心理测量的标准技术。但是,在很长一段时间里,这种手段的执行难度在于数据收集,这是因为它涉及一份复杂的、高度私人性质的问卷的填写。
然后,网络出现了。接着是facebook。再接着是kosinski。
看懂一个人只需要68个赞
michal kosinski2008年进入剑桥大学心理测量中心攻读博士,这是该领域在世界范围内最古老的研究中心之一。入学后,kosinski加入了他同窗david stillwell(现在是剑桥judge商学院的讲师)的项目组。那时facebook还没有如今的规模。
kosinski项目组“我的人格(mypersonality)”app能让用户参与填写不同的心理测量问卷,包括大量来自“大五类人格测试”问卷上的心理测试题(如“我容易惊慌”,“我爱反驳其他人”)。基于这项评估,用户会收到一份“人格侧写”报告,内容包括用户的“大五类人格”数值,用户可以自行决定是否授权将他们的facebook个人简介分享给研究人员。
一开始kosinski以为只会有几十个大学朋友来填问卷,没想到不久之后,几百、上千,甚至几百万的人参与了进来,展现了他们的内心世界。突然间,这两个博士生拥有了有史以来最大的、将心理测量数据和facebook自我简介相结合的一套数据。
通过问卷,心理测量学家计算出答题人的“大五类人格”数值。然后,kosinski的团队将计算结果和测试对象的其他网络数据进行对比,比如他们赞了什么,在facebook上分享了或发了什么,或他们填的性别、年龄和住址。这种方法使研究人员能够把信息串联起来,使其相关。
基于简单的网上行为,他们就能得出相当可靠的推演。
举几个例子,“赞”了化妆品牌mac的男性有较高的可能性是同性恋;同性恋最好的指标之一是是否喜欢wu-tang clan(美国hip-pop组合)。lady gaga追随者们极有可能是性格外向的人,而那些“赞”了哲学相关内容的人则更可能偏内向。
lady gaga演唱会,图片来自网络
虽然,任何一个单独的此类信息都不足以让他们得到可靠的预测,但综合了几十、几百、或上千的个体数据之后,他们的预测就会变得非常准确。
2012年,平均凭借一个facebook用户的68个“赞”,kosinski模型就能够估计出他们的肤色(准确率为95%)、性取向(准确率为88%)和党派(民主党或共和党,准确率为85%)。
除此之外,他们的智力、宗教信仰,以及酒精、烟草和毒品的使用情况,全都可以被预测出。从这些数据入手,这一模型甚至有可能推测出某人的父母是否离异。
点“赞”数超过300个时,kosinski甚至能比实验对象更了解他们自己。
就在kosinski发表了这些发现的当天,他收到了两通电话:一个诉讼威胁和一个工作邀请。这两个都来自facebook。
仅仅数周之后,facebook的“赞”的功能就被默认为仅自己可见。而在那之前,默认设置是点“赞”对所有人可见。不过,这样的变化不会对数据采集者造成什么困难:很多的app和网上的测验都会要求用户关联facebook账户,并允许其访问用户私人数据,以此作为进行人格测试的前提条件。
更令人担忧的是,kosinski和他的团队现在已经能够单纯地从一个人在facebook上的头像或联系人的数量(外向性的一个很好的指标)推算出五类人格数值。
同时在线下,我们也留下了不少痕迹。举个例子,我们手机内置的运动传感器透露了我们的移动速度和移动距离(和情绪的不稳定性相关)。kosinski总结道:我们的智能手机是一份我们一直在填写的巨大问卷,不管是有意识地还是无意识地。
最重要,同时也是最关键的是,这种方法反过来也奏效。数据不仅能用来得到你的心理特征侧写,也可以将数据来源中的人群进行归类和搜索:可以找到所有焦虑的父亲、愤怒的内向的人,抑或甚至是摇摆的民主党员。本质上,kosinski发明的是某种类似于人类搜索引擎的东西。他开始认识到他的“作品”的潜能,但同时也看到其内在的危险。
从英国脱欧开始说起
大约在2014年年初,一个名叫aleksandr kogan的心理学助理教授找到kosinski,说他代表一家对kosinski的方法感兴趣的公司来询问,想要访问mypersonality数据库。一开始,kosinski和他的团队考虑了这个提议,因为这意味着能给研究中心带来一笔可观的收入。可是之后他犹豫了,因为kogan透露了公司的名字:scl,strategic communication laboratories。
“(我们是)最佳的选举管理机构”,公司的网站上这样写着。scl依靠心理建模提供销售(服务)。公司一个核心特色是:影响选举。
这到底是一家什么公司?这些人又在计划些什么?
在那时,kosinski不知道的是:scl是一组公司的母公司。到底谁拥有scl?scl有哪些分支?因为其复杂的公司结构,这些都不得而知。
2013年,scl分拆出一家新公司用以参与美国大选,名为剑桥分析(cambridge analytica)。
进一步调查后,kosinski发现aleksandr kogan已经秘密地注册了一家公司,并和scl有生意往来。从一份2015年12月刊登在卫报(the guardian)的报告来看,scl已经从kogan那里掌握了kosinski的方法。
kosinski怀疑,kogan的公司可能已经仿制了基于facebook点赞数据的大五项类人格测量工具,并将它卖给这家选举影响公司(scl)。他立刻与kogan中断联系,并向中心主任报告了此事。此后,aleksandr kogan搬去了新加坡,结婚,并将自己的姓改成了spectre。
约一年后,2015年11月,由nigel farage支持的更为激烈的两次brexit政治运动“脱欧”(leave.eu)声称他们委托了一家大数据公司来支持他们的网上活动:这家公司正是剑桥分析。剑桥分析的核心优势是新的政治营销,即微瞄准(micro-targeting),依靠五项人格(ocean)模型从用户的电子足迹中测量出他们的人格。
英国脱欧,图片来自网络
“英国退出欧盟”的公投结果宣布后,kosinski不得不解释说他和剑桥分析公司没有任何联系,尽管这家公司名字中有“剑桥”二字。到底剑桥分析和英国脱欧运动有多深的牵连,我们不得而知。剑桥分析自己也不会去谈论这样的问题。
剑桥分析ceo曾公开分享助力选举的秘密武器
过了几个月,2016年9月,仅仅在美国总统大选的前一个月,在纽约concordia summit(世界经济峰会的迷你版)会议上,剑桥分析首席执行官alexander nix被邀请做了个演讲(演讲视频见这篇文章开头)。多数出席者都知道这就是特朗普新任的数字战略家。
与此同时,希拉里·克林顿则严重依赖于历史上首位“社交媒体总统”奥巴马的经验方法。她不仅拥有所有民主党人士的邮件列表,任用了来自bluelabs的最前沿大数据分析师,而且得到了google和dreamworks的支持。
在2016年6月,当特朗普宣布聘请剑桥分析参与他的选举活动时,华盛顿的当权者们都嗤之以鼻。这家公司主要由美国的软件亿万富翁robert mercer(同时是2014年自然语言处理顶会acl终身成就奖获得者)秘密赞助。而他女儿rebekah也在后来被报道为剑桥分析的最大股东。
在演讲中,nix解释说,到目前为止,选举拉票活动的策划都是基于人口分布的、而不是基于心理学特征。剑桥分析的大数据营销技术是基于三个要素:利用大五类ocean模型的行为科学,大数据分析和广告定位。广告定位即个性化广告,它通过尽可能找准消费者的个性,采取相应的广告策略。
“在剑桥,我们能够用一个模型来预测每一个美国成年人的人格。”nix透露。
nix坦率地描述了整个分析过程。首先,剑桥分析公司从各种不同的渠道(数据经纪公司acxiom和experian等)购买了人口数据,如土地登记、汽车数据、购物数据、奖励卡、俱乐部会员、杂志购买、教会活动数据。假如你想知道犹太妇女们住在哪里,以及她们的电话号码,你可以简单地购买这些信息。
剑桥分析将这些数据和共和党选民名册以及网上数据结合起来,并且计算出五大人格特征轮廓。数字踪迹在处理器中变成了为现实的人,这些人具有真实的恐惧、需求、兴趣和住所。
这个方法看起来和michal kosinski曾经研发的方法非常相似。剑桥分析也运用了社交媒体的调查和facebook的数据。“我们描绘了共2.2亿人的性格特征。”nix说道。
“这是我们为ted cruz选举活动准备的数据表。”
左边是图表;右边是爱荷华州地图,ted cruz在爱荷华州赢得了大量的选票。在�...