2019-03-062018-10-31T16:00:00+00:00
COPYRIGHT
书名:人人都在说谎:赤裸裸的数据真相
作者:【美】赛思·斯蒂芬斯–达维多维茨
出版社:中信出版集团
出版时间:2018年11月
ISBN:9787508693873
本书由中信出版集团授权得到APP电子版制作与发行
版权所有·侵权必究
谨以此书献给
我的父母双亲
许多哲学家曾经猜想有一种“大脑可视仪”,一种可以将一个人的想法呈现在屏幕上的虚构工具。自那时起,社会科学家就一直在寻找可以解读人性的工具。在我作为实验心理学家的职业生涯中,形形色色的工具一时兴起,消失淡去,每一种工具我都尝试过,如评定量表、反应时间、瞳孔放大、功能性神经影像等。我甚至还研究过植入电极的癫痫患者,在两次病发的间歇期,他们很乐意参与语言实验来消磨时光。
然而,这其中却没有任何一种工具能提供大脑活动的直接影像,问题在于这涉及错综复杂的多方面荣誉的许多命题,这些命题即便对一名科学家而言也是难解之题,他要做出一种残忍的取舍。人类思维是一个复杂的命题,与伍迪·艾伦(Woody Allen)速读《战争与和平》不同,我们不仅仅认为“这本书讲述了一些俄国人的故事”。当然,在人们倾吐心声的时候,我们可以察觉到其意识流的丰富性,但独白并不是检验假设的理想数据集。另外,虽然专注于容易量化的方法,比如人们对文字的反应时间或看到图片时皮肤的反应,我们可以进行统计,但这样我们就将认知的复杂结构简化成单纯的数字了。即便是最复杂的神经影像学方法也只能告诉我们一个想法在三维空间中是如何展现出来的,却无法告诉我们这个想法是由什么组成的。
仿佛这个易操作性和丰富性之间的取舍还不够糟糕一般,许多研究人性问题的科学家当下正备受“小数定律”(Law of Small Numbers)的困扰。小数定律是阿莫斯·特沃斯基(Amos Tversky)和丹尼尔·卡尼曼(Daniel Kahneman)用来指代思维错误的术语,即人们错误地认为无论样本数量多么少,都能反映群族的特征。最具科学素养的科学家也有直觉出现严重偏误的时候。他们凭直觉推断完成一项研究需要有多少门学科的加入,可此前他们压根儿没有从一堆随机数据中排除异常及相悖的因素,也没有采集能代表全体美国人的数据,更不用说代表全人类了。若样本是以便利抽样的方式(比如给参与我们项目的大二学生发点儿零花钱)搜集而来的话,其可信度就更低了。
这本书介绍了一种研究思维的全新方式。尽管来自网络搜索和其他在线回应的大数据并非“大脑可视仪”,但赛思·斯蒂芬斯–达维多维茨表示,这些数据为窥视人类心灵提供了前所未有的机会。凭借网络对隐私的保护,人们敢于坦陈最奇怪的事,有时候(比如浏览婚恋网站或寻求专业咨询时)是因为这些事会对现实生活产生一定的影响,但更多的时候正是因为在网上坦陈这些事不会产生什么影响:人们可以卸下心防,放下些许希望或恐惧,同时也不会有人因此感到沮丧或不适。无论采取哪种方式,人们所做的都不仅仅是按下一个按钮或旋转一个把手那么简单,而是键入数万亿个字符来表达自己心中不吐不快、情绪万千的许多想法。更方便的是,人们以一种方便汇总和分析的形式规定了这些数据痕迹。这些人来自各行各业,可以参与那些不那么引人注目的实验,这些实验可以使刺激因素多样化,并且将多种反应制作成实时表格。这些人很乐意提供这些规模庞大的数据。
《人人都在说谎》一书远不止证明一个概念。斯蒂芬斯–达维多维茨的发现一次又一次地颠覆了我对自己的国家和族群的认知。特朗普意想不到的支持从何而来?1976年,安·兰德斯(Ann Landers)曾经问过她的读者有没有后悔生孩子,她震惊地发现多数人确实后悔过。当时她是否被不具代表性的自选样本误导了呢?互联网应该对21世纪第二个10年后期出现的那次多余起名的危机(即“过滤气泡”[1]危机)负责吗?是什么激发了仇恨犯罪?人们会通过笑话振作精神吗?尽管我一心认为没有什么可以令我吃惊,却还是被互联网披露的人类性需求(包括一定数量的女性每个月都会在网上搜索“和毛绒玩具滚床单”这一发现)惊到了。采用反应时间、瞳孔放大或功能性神经影像等工具的实验中没有一项能反映这样的事实。
每个人都会喜欢这本书。赛思·斯蒂芬斯–达维多维茨用他的好奇心和智慧为21世纪的社会科学指出了一条新道路。有这样一扇散发着无限魅力,能够窥视人类内心喜好的窗户,谁还需要大脑可视仪呢?
——斯蒂芬·平克(Steven Pinker),2017年
[1] “过滤气泡”是指在算法推荐机制下,高度同质化的信息流会阻碍人们认识真实的世界。——编者注
人们说,他必败无疑。
2016年美国共和党初选时,民意调查专家断定特朗普毫无胜算,毕竟特朗普曾冒犯过不少少数群体。民意调查结果显示,几乎没有任何一个美国人赞成这样的行径。
当时,大多数民意调查专家认为特朗普会在普选环节败北。很多拟投票的选民说,考虑到特朗普的言行,他们最终放弃投票。
但当时确实有一些迹象表明特朗普有可能赢得党内初选以及普选——这些迹象源于网络。
我是一名互联网数据专家,每天都会跟踪记录人们浏览网页时留下的数据痕迹。根据人们点击的频度,我努力解读他们真正想要的、真正要做的和他们的真面目。下面我来解释一下我是如何走上这条不寻常之路的。
说来话长(这样一讲,好像是几个世纪前的事了),事情要从2008年总统大选和那个社会科学界争论已久的问题说起:在美国,种族偏见到底有多大的影响?
奥巴马当年是以美国主要政党中第一位非洲裔美国总统候选人的身份参与竞选的。他赢得非常轻松。民意调查结果显示,种族并不是影响美国人投票的因素之一。例如,盖洛普民意测验公司(Gallup)在奥巴马初选前后进行了多次民意调查,结论是什么?美国选民多半不在意奥巴马是黑人。[1]选举结束后不久,加州大学伯克利分校的两位知名专家使用更加复杂的数据挖掘技术(data-mining techniques)研究了其他调查数据并得出了相似的结论。[2]
而且,在奥巴马任职期间,这也成了许多媒体和众多科研院所的共识。媒体和社会科学家80多年来一直用于了解这个世界的信息资源告诉我们,在判断奥巴马应不应该成为总统时,绝大多数美国人根本不在意他是黑人。
这个国家曾因奴隶制度和种族隔离法而长期备受诟病,如今貌似终于不再以肤色来评判一个人了。这似乎表明种族歧视在美国已经穷途末路了。事实上,有些专家甚至宣称我们已生活在后种族社会(post-racial society)了。[3]
2012年,当时还是一名经济学研究生的我,对生活感到十分迷茫,对经济学领域的研究也失去了热情,我自信(甚至有些自大)对世界的运作方式和人们在21世纪的所思所虑都有着深刻理解。涉及种族偏见问题时,基于对心理学和政治科学领域的了解,我相信显性种族主义(explicit racism)仅仅局限于极少数美国人——其中大多数人是保守的共和党人,且大都居住在南方诸州。
然后我发现了谷歌趋势(Google Trends)。
2009年,谷歌隆重推出一款数据挖掘工具——谷歌趋势,它可以告诉使用者任何一个词语或短语在不同时间、不同地点的使用频率。谷歌趋势的宣传定位是一种有趣的工具——也许是因为它可以让朋友之间讨论哪位明星最受欢迎,什么样的潮流一下子火了起来。这一工具最初的几个版本还包括一句幽默的警告:人们应该“不想借助这一数据撰写博士学位论文”。这句话立刻激发了我依靠这些数据完成学位论文的积极性。[4]
当时,对“正派”学术研究来说,谷歌搜索数据似乎并不是恰当的信息来源。与调查不同,谷歌搜索数据的创建并非用于帮助我们了解人类的心灵。人们发明谷歌,是为了了解世界,而非让研究人员了解人类,不过最终结果却是我们上网探求知识时留下的痕迹遭到了很大程度的暴露。
换句话说,人们搜寻信息这一行为本身就是信息。事实证明,他们何时何地搜寻真相、格言、笑话、地点、人物、事件或帮助,可以在很大程度上反映他们真实的想法、欲望、恐惧和职业,其程度之高是任何人都想象不到的。尤其是人们向谷歌坦陈“我恨我的老板”“我喝醉了”“我爸爸打了我”等心境时更是如此。
把词语或短语输入一个小小的白色长方形对话框这一日常行为总会留下关于真相的蛛丝马迹:这个细微的痕迹重复出现数百万次,最终一定会揭示许多深刻的现实问题。我在谷歌趋势输入的第一个词语是“上帝”,我了解到,使用谷歌搜索提及“上帝”一词最多的州有亚拉巴马州、密西西比州和阿肯色州,即《圣经》地带(the Bible Belt),而那些搜索大多发生在周日。这都不足为奇,但有趣的是,搜索数据可以揭示这样一种清晰的模式。我试着搜索了“尼克斯队”,结果显示搜索次数最多的地区是纽约市。这也是毫无疑问的。接着,我又输入了自己的名字,谷歌趋势提示我“很抱歉,搜索量不足”,无法显示结果。因此,我了解到只有在很多人做过相同的搜索之后,谷歌趋势才会提供数据。
谷歌搜索的功能不是告诉我们上帝在南方很受欢迎,不是尼克斯队在纽约市很受欢迎,也不是我在哪儿都不招人待见。任何一项调查都可以反映上述事实。谷歌数据的功能在于,人们会向这个巨大的搜索引擎倾吐他们不会告诉任何人的事情。
就以性(在本书后文中会深入探讨这个话题)为例。那些调查并不足以反映人们性生活的实际状况。我分析过综合社会调查的数据,这项调查被视为反映美国人行为的最具影响力和权威性的信息来源之一。[5]根据这项调查,谈及异性性行为时,女性会说她们平均每年有55次性行为,其中16%的情况下使用安全套。据此,每年安全套的使用量会多达11亿个。有异性性行为的男性则说,他们每年一共使用16亿个安全套。这两个数字本应是一致的。那么,谁说的是实话呢,男性还是女性?
结果显示他们都没有说实话。根据追踪消费者行为的全球信息与计量公司尼尔森市场调查公司(Nielsen)的数据,每年安全套的销量尚不足6亿个。[6]因此,人人都在说谎,唯一的不同就是说谎程度的大小。
事实上,说谎是一种普遍行为。未婚男性称他们每年人均使用29个安全套,这一数据合计要比美国已婚人士和单身人士这两个人群每年人均购买的安全套总和还要多。已婚人士也夸大了他们的性行为次数。平均而言,65岁以下的已婚男性告诉调查人员他们每周有一次性行为,只有1%的人说他们去年一整年都没有发生性行为。已婚女性称她们的性行为次数要少一点,但也不会少很多。
谷歌搜索为我们呈现了一幅婚内性行为的图像,虽然没那么生动,但我认为其更加确切。在谷歌上,网民对婚姻抱怨最多的就是没有性生活。“无性婚姻”的搜索量要比“不愉快婚姻”多3.5倍,比“无爱婚姻”多8倍。甚至连未婚情侣也会不时抱怨没有性生活。谷歌上“无性关系”的搜索量仅次于“虐待关系”。(需要强调的是,这个数据来源是完全匿名的。当然,谷歌不会公布任何有关特定个体信息搜索的数据。)
谷歌搜索也曾呈现过一幅有关美国的图像,这幅图像与那些调查勾勒出的后种族乌托邦图景有着天壤之别。我还记得自己第一次在谷歌趋势中输入“黑鬼”一词时的情形。我知道这样做很幼稚。鉴于该词有着极端负面的含义,当时我以为相关搜索量肯定很少。可我错了。在美国,“黑鬼”一词或其复数“黑鬼们”的搜索量与“偏头痛”“经济学家”“湖人队”这类词大致相同。我曾怀疑,是不是对说唱歌曲歌词的搜索影响了该结果?事实并非如此。说唱歌曲中使用的词语几乎都是“黑人”。那么,美国人搜索“黑鬼”一词的动机到底是什么呢?他们通常是为查找嘲笑非洲裔美国人的笑话才搜索该词的。事实上,对“黑鬼”的搜索中20%都包含“笑话”一词。其他常见的搜索还包括“愚蠢的黑鬼”和“我讨厌黑鬼”等。
每年这样的搜索有数百万次之多。许多美国人都曾在自己家中做过此类具有种族主义性质的查询。我研究得越多,得到的信息就越令人不安。
在奥巴马首次胜选之夜,大多数评论都在赞扬奥巴马或宣扬其当选的历史性意义,但约有1%的包含“奥巴马”一词的谷歌搜索包含“kkk”[7]或“黑鬼(们)”。可能这个百分比听起来不是那么高,但是请想想人们搜索这个家庭美满的年轻外来者、这个即将接手美国最具权势的职位的人所给出的万般非种族主义的理由吧。胜选之夜,在美国拥有超高人气的白人民族主义者网站——“风暴前线”(Stormfront)的搜索量和注册量要比平常多10倍。[8]在某些州,“黑鬼总统”的搜索量要多于“首位黑人总统”。[9]
这样一种黑暗及仇恨心理在传统媒体上已遁于无形,而在人们创建的搜索网站上则显露无遗。
那些搜索和一个种族主义并非主导因素的社会显得格格不入。2012年,我所知道的特朗普多以商人和真人秀演员的身份示人。同其他所有人一样,当时的我并不曾料到他在4年后竟会成为一名一本正经的总统候选人,但那些丑恶的搜索行径和一名经常迎合民众最卑劣倾向的候选人的成功并不违和。(比如他成功打压了移民,成功发泄了内心的愤怒和怨恨。)
谷歌搜索还告诉我们,我们关于种族主义盛行地区的很多想法是错误的。研究调查和传统观念都想当然地认为现代种族主义的重灾区主要是美国南方,并且支持者大多是共和党人,但事实上种族主义搜索率最高的地方包括纽约州北部、宾夕法尼亚州西部、俄亥俄州东部、密歇根州工业区和伊利诺伊州郊区,以及西弗吉尼亚州、路易斯安那州南部和密西西比州。谷歌搜索数据表明,种族主义的正确划分模式不是美国南方与北方,而是东部与西部,在密西西比州以西绝不会碰到这类事情,而且种族主义倾向也并不仅仅局限于共和党人。事实上,共和党人占多数的地区对种族主义的搜索频度并不比民主党人占多数的地区高。换句话说,谷歌搜索帮我们绘制了一幅美国种族主义新的分布图——这幅分布图看起来可能与你所想的大相径庭(见图0–1)。美国南方的共和党人也许更有可能承认自身的种族主义倾向,而很多来自美国北方的民主党人也持相似的态度。
图0–1 种族主义搜索量分布图
事实证明,4年后,这幅分布图对解释特朗普在政治上的成功意义重大。
2012年,我正是凭借自己此前依靠谷歌搜索数据开发而来的这幅种族主义分布图准确地重新评估奥巴马所代表的种族扮演的角色。数据一目了然。在美国种族主义搜索量很大的地区,奥巴马比白人民主党总统候选人约翰·克里(John Kerry)4年前的表现要差很多。这些地区的任何其他因素,包括教育水平、年龄、教会参与度、枪支持有状况,都无法解释个中缘由。种族主义搜索并不能预言任何其他民主党候选人会有糟糕的表现,唯独对奥巴马有用。
这样的结果意味着该因素影响极大。仅仅因为显性种族主义,奥巴马在全美就损失了将近4个百分点的支持率。这个数字要比基于任何调查所能预料的结果都高太多了。当然,凭借某些对民主党而言得天独厚的条件,奥巴马成功当选总统并顺利连任,但是和任何一个依靠传统数据源取得这一成功的人(也就是所有人)相比,他必须要克服更多困难。在流年不利的情况下,足够多的种族主义者会帮助民主党候选人赢得初选,甚至会使大选结果出现反转。
我的这项研究起初曾被5家学术期刊拒之门外。[10]现在回想起来,我依然觉得有些气恼。多位审稿人都说,他们无法相信有如此多的美国人怀有这样恶毒的种族主义思想。这种观点与人们一直以来的说法明显不符。此外,谷歌搜索似乎就是这样一个奇怪的数据集。
既然我们已经见证了特朗普的总统就职典礼,我的发现似乎就更具说服力了。
研究越深入,我就越清楚谷歌搜索网站有很多投票遗漏的信息,这些信息恰恰有助于在其他各主题下了解选举。
有些信息是关于最终谁会投票的。超过半数本不会投票的人在选举即将开始时告诉调查人员,他们想要参与投票,成心扰乱我们对投票结果的预估。然而,在选举开始的几周前,仅凭“如何投票”或者“去哪儿投票”的搜索结果就可以准确预测全美哪些地区将在投票站有大动作。
甚至还可能有关于选民会给谁投票的信息。仅凭人们的搜索内容,真的可以预测他们会为哪位候选人投票吗?很显然,我们不能只研究哪位候选人的搜索频率最高。加州大学洛杉矶分校的金融学教授斯图尔特·加布里埃尔(Stuart Gabriel)说,很多人搜索某位候选人是因为喜爱他,但是有几乎同等数量的人搜索某位候选人是因为讨厌他。我也发现了一条关于人们计划如何投票的惊人线索。有很大一部分与选举相关的搜索中都包含两位候选人的姓氏。2016年特朗普和希拉里·克林顿竞选期间,有些人搜索了“特朗普 克林顿 投票”,有些人则通过搜索“克林顿 特朗普 辩论”查找两人辩论的花絮。事实上,在对“特朗普”的搜索中,有12%包含“克林顿”一词;而在对“克林顿”的搜索中,包含“特朗普”一词的比例超过1/4。
我们发现,这些看似中立的搜索信息很可能会为我们提供哪位候选人更受选民支持的线索。
如何提供呢?当然是看候选人姓氏出现的顺序。我们的研究表明,在一条包含两位候选人姓氏的搜索中,选民更有可能将其支持的候选人姓氏放在前面。
之前的三次总统选举中,候选人在搜索中姓氏排在前面的概率越大,其得票率也就越高。更有趣的是,候选人姓氏的搜索顺序居然可以预见某一特定州将会支持谁。
候选人姓氏的搜索顺序似乎也包含投票可能遗漏的信息。2012年奥巴马和共和党候选人米特·罗姆尼(Mitt Romney)竞选期间,身为资深统计学家及记者的纳特·西尔弗(Nate Silver)就曾准确预测全美50个州的投票结果。我们发现,有些州的民众在搜索中常常把“罗姆尼”放在“奥巴马”之前,而罗姆尼在这些州的表现实际上要比西尔弗此前的预测好很多;在那些常把“奥巴马”放在“罗姆尼”之前进行搜索的州,奥巴马的表现也比西尔弗预测的好。
这一指标也可能包含投票遗漏的信息,因为选民要么是言不由衷、自欺欺人,要么是不愿向民意调查专员吐露自己的真实偏好。也许如果他们2012年称自己尚未决定,却一直在搜索“罗姆尼 奥巴马 投票”“罗姆尼 奥巴马 辩论”“罗姆尼 奥巴马 选举”,那么其实他们自始至终都打算把票投给罗姆尼。
那么,谷歌预测过特朗普会赢得选举吗?其实在了解如何利用谷歌搜索最精准地预测选举结果之前,我们还有很多工作要做,而我也需要更多研究人员的加入。这是一种新型科学,而且我们只有为数不多的选举数据可供分析。当然,我不是说我们眼下(或将来)可以将民意调查这一工具放心大胆地用来辅助选举结果预测。
但是,互联网上有多种征兆表明,特朗普的表现有可能比民意调查的预测要好。
大选期间,有线索表明选民可能更倾向于支持特朗普。非洲裔美国人告诉民意调查人员,他们中的大多数人很可能会反对特朗普,但是谷歌搜索中非洲裔美国人聚居区投票的信息量一路走低。可大选那天,因非洲裔选民投票率低而受损的人却是希拉里·克林顿。
当时甚至还有迹象表明摇摆选民(undecided voters)可能会选择支持特朗普。我和加布里埃尔发现,在美国中西部的几个关键州,“特朗普 克林顿”的搜索量要多于“克林顿 特朗普”,而这几个关键州本来是希拉里·克林顿十拿九稳的。事实上,特朗普之所以能赢得选举,就是因为赢得了那几个关键州的支持。
但我认为,特朗普在初选中一路高歌奏凯,也许可以证明他是位成功的候选人的主要线索,便是我在对奥巴马的研究中所发现的暗藏的种族歧视。谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。
人们常常说谎,对自己说谎,也对别人说谎。2008年,许多美国人告诉民意调查人员,他们早已不在意种族了。8年后,他们却把特朗普选为总统,而这位先生曾在其推特上转发过一条错误言论——黑人要为美国白人的大多数谋杀行为负责;他还曾在一次集会上为其支持者辩护,这些支持者此前殴打了一名参与“黑人的命也是命”的抗议者;他也曾在否认接受过三K党某前领导人的支持时支支吾吾。同是暗流涌动的种族主义,刺伤了当日的奥巴马,却成就了今天的特朗普。
总统初选之初,纳特·西尔弗曾高调宣称特朗普根本没有机会赢得大选。然而,随着选举的不断推进,形势也变得越来越明朗:特朗普得到了广泛的支持。于是,西尔弗决定查看数据,看自己能否搞懂当时是什么情况。特朗普怎么会表现如此抢眼呢?
西尔弗注意到特朗普表现极佳的那些地区共同构成了一幅奇怪的地图(见图0–2)。特朗普在东北部、中西部和南方地区都表现得很好,在西部地区却表现得非常糟糕。西尔弗找了很多因素试图解释这幅地图。是因为失业、宗教、枪支持有、移民率,还是因为特朗普反对奥巴马?
西尔弗发现,与特朗普在共和党内初选时的支持率相关度最高的因素居然是我在4年前的一项发现。[11]特朗普拥趸最多的地区就是“黑鬼”一词的谷歌搜索量最多的地区。[12][13]
图0–2 特朗普共和党内初选支持区域分布图
过去4年里,我每天都在分析谷歌数据。谷歌公司了解到我的种族歧视研究后,还聘我做了一段时间数据专家。而今,我继续作为专栏作家和数据记者为《纽约时报》考察这一数据。几年来的新发现所涉甚广:精神疾病、人类性行为、虐待儿童、人工流产、广告活动、宗教信仰、健康问题,等等。这些话题其实都很大,而这个几十年前并不存在的数据集,短短几年内便为我们提供了看待前述所有话题的全新视角,不可谓不惊人。经济学家及其他社会科学家一直在搜寻新的数据源,毫不客气地说,我确信谷歌搜索数据绝对是有史以来搜集到的人类心理数据集中最出色的一个!
然而,这一数据集并非互联网为当代人提供的了解世界的唯一一种工具。我很快就意识到还有其他数据金矿可挖。我下载了维基百科的全部内容,钻研了脸谱网上的所有资料,挖空了白人民族主义者网站“风暴前线”上的信息。此外,互联网上最大的色情网站之一也提供了全世界匿名人士的搜索和视频播放量的完整数据。也就是说,我早已深入了解现今所谓的“大数据”。不仅如此,我还采访了许多人,如学术界人士、新闻工作者和企业家等,他们也在探索这一新领域。对于他们的许多研究,本书会做讨论。
首先,我得承认我无法准确定义究竟什么是大数据。为什么?因为这本来就是一个模糊的概念。多大才算大?如果18 462个观测值是小数据,那么18 463个就算大数据吗?我更愿意采取一种包容性观点为其下定义:尽管我摆弄的数据大多来自互联网,但我也会考虑其他渠道。我们正在经历各种可用信息数量和质量的双重激增。很多新信息都是从谷歌网站和社交媒体流出的,其中一些是从前尘封于档案柜中的信息经过数字化之后形成的产品,还有一些源自那些致力于市场研究的新资源。本书中的一些研究完全没有使用大的数据集,而是使用一种全新的创造性数据研究法,这种方法在信息过剩的时代是至关重要的。
那么,到底为什么大数据如此强大呢?想想某一天散布在网上的所有信息吧——事实上,对于这样的信息有多少,我们是有一个确切数字的。在21世纪之初的平常日子里,人类每天可以产生2.5×1018字节的数据。[14]
这些字节就是线索。
一个女人在某个周四下午倍感无聊,便用谷歌搜索更多的“有趣的素笑话”。她查看邮件,登录推特,然后用谷歌搜索“黑人笑话”。
一个男人心情不大好,便用谷歌搜索“抑郁症状”和“抑郁故事”。他还玩纸牌游戏。
一个女人在脸谱网上看到朋友发布的订婚消息,而她还单身,于是她屏蔽了这位朋友。
一个男人先是用谷歌搜索国家橄榄球联盟和说唱音乐,然后又问了搜索引擎一个问题:“梦到男人和男人接吻正常吗?”
一个女人点击网站BuzzFeed上“15只最可爱的猫”的故事。
一个男人看到了同一个关于猫的故事,但他的屏幕上显示的是“15只最乖巧的猫”,他没有点击。
一个女人用谷歌搜索“我的儿子是天才吗”。
一个男人用谷歌搜索“如何让我的女儿减肥”。
一个女人正和6个最好的女性朋友度假,所有的朋友都在说她们玩得有多开心,只有她偷偷离开,用谷歌搜索“丈夫不在身边的孤单”。
前面那个女人的丈夫也在和6个最好的男性朋友度假。他偷偷溜出来,用谷歌搜索“妻子出轨的迹象”。
这些数据中有一部分包含原本不会被任何人接收的信息。如果把这些信息整合起来,使之保持匿名状态以确保我们永远不会知晓任何特定个体的恐惧、欲望及行为,再加上数据科学,我们就会对人类有一个新的认识——他们的行为、他们的欲望和他们的本性。事实上,尽管听起来有夸大其词的风险,但我越来越相信,数字时代日益普及的新数据将大大拓展我们对人类的理解。我们以为自己看清了一滴池水,可显微镜却为我们展示了更多;我们以为自己看尽了夜晚的天空,可望远镜却为我们展示了更多;我们以为自己看懂了人类社会,可如今的数字数据却为我们展示了更多。这些数据也许就是我们这个时代的显微镜或望远镜吧——有了它们,人们才有可能提出重大乃至具有革命性的见解。
发表这样的言论不仅有夸大其词之嫌,而且有另一重风险——赶新潮。很多人都曾对大数据的影响做过很高的评价,但是他们缺乏证据。
这导致为数众多的大数据怀疑者对更大数据集的搜索不予理睬。作家兼统计学家纳西姆·塔勒布(Nassim Taleb)曾写道:“我不是说大数据中没有信息,事实上它包含很多信息,但问题是,提取信息比大海捞针还难,而这也是主要问题。”[15]
因此,本书的主要目标之一,便是要就大数据能做什么这一问题提供一些缺失的证据。如果你愿意在海里捞针,本书就会告诉你如何才能在越来越广阔的海域里捞到那根针。我希望可以提供足够多的大数据案例,为人类心理及行为提供新的见解,如此一来,你就会逐渐看到真正具有革命性的事物的轮廓。
你现在可能会说:“等一下,赛思,你是说会有一场革命?!你这是在粉饰这些新的大数据集。到目前为止,你只用所有这些惊人的、非凡的、振奋人心的、开天辟地的数据主要告诉了我两件事:第一,美国有很多种族主义者;第二,人们(尤其是男人)夸大了他们的性行为次数。”
我承认,有时候新数据只是证实了显而易见的事情。如果你认为这些发现是显而易见的,等你读到本书第4章,我会向你展示谷歌搜索中条理分明而又无懈可击的证据,证明男人对自己的阴茎大小极为关注且有不安全感。等着吧,到那时你就会明白了。
可以这么说,证明那些你本就怀疑却缺乏证据的事情不可谓没价值,但怀疑某事是一回事,证明它又是另一回事。如果所有大数据能做的只是证实你的怀疑,那么这些数据也就不会那么具有革命性了。幸运的是,大数据能做的远不止于此。数据一次又一次向我证明,这个世界的运转方式与我之前的猜测恰恰相反!这里有一些例子,可能会令你感到更惊讶。
你可能会认为种族主义产生的主要原因是经济的不安全性和脆弱性。你可能会很自然地认为,一旦人们失去工作,种族主义就会加重。实际上,无论是种族主义搜索量还是“风暴前线”的会员数,都不会在失业之际走高。[16]
你可能会认为,在过度教育的大城市中,人们的焦虑程度最高,城市神经质就是一个著名的刻板印象,但是,用谷歌搜索“焦虑症”或“焦虑救助”的结果反映出,在教育水平较低、家庭平均收入较低、农村人口密度较大的地区,焦虑程度更高。[17]纽约州北部地区对焦虑的搜索率比纽约市更高。
你可能会认为,造成几十人甚至数百人伤亡的恐怖袭击过后,紧随而来的便是迅速蔓延的重度焦虑情绪。从定义来看,恐怖主义应该会引起恐惧感。我查看了反映焦虑的谷歌搜索,测试了一个国家自2004年以来在欧美国家所有重大恐怖袭击事件后的几天、几周和几个月内此类搜索的增长量。与焦虑有关的搜索平均增长量是多少呢?结果是,根本就没增长!
你可能会认为,人们心情低落时搜索笑话的概率更大。[18]历史上很多伟大的思想家都曾说过,人类总会用幽默来缓解痛苦。幽默感一直以来都被视为应对生活中的沮丧、痛苦和不可避免的失望的方法。正如卓别林所言:“笑声是滋补品,是缓解和去除痛苦的灵药。”
然而,在人们认为最不开心的周一,笑话搜索量却是一周中最少的,阴雨天的相关搜索量也是所有天气中最少的。重大悲剧发生时,例如2013年波士顿马拉松比赛期间,两颗炸弹造成三人死亡、数百人受伤后,笑话的搜索量也会骤降。实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。
有时一个新的数据集会展现我想都不曾想过的行为、欲望或担忧,很多性癖好就属于这种类型。例如,在印度以“我丈夫想要……”为开头的搜索中,数量最多的是“我丈夫想要我给他喂奶”,这一点过去你知道吗?[19]在印度,这类表达要比其他国家多得多。除此之外,在印度和孟加拉国,女人给男人喂奶这类色情描述的搜索量要比全球其他国家多4倍。[20]在看到数据之前,我是无论如何也不会想到这一点的。
男性对自己的阴茎大小耿耿于怀这一事实也许还可以理解,但女性对自己身体最大的不自信之处(按谷歌搜索来看)就很匪夷所思了。基于这项新数据,与男性介意自己的阴茎大小一样,女性可能担忧的是——卖个关子——自己的阴道是否有异味。女性与男性因对自己的私处心存隐忧而进行的搜索,在量上是基本持平的,只不过女性搜索率最高的是气味(以及如何改善异味)。在看到数据之前,我对此当然是一无所知的。[21]
有时新数据会体现我从前不曾考虑过的文化差异。例如,全世界男人对于妻子怀孕一事的反应截然不同。在墨西哥,与“我怀孕的妻子”相关的搜索词条中排名前两位的是“对怀孕的妻子说的情话”和“为怀孕的妻子作的诗”。[22]在美国,搜索量最多的词条包括“我妻子怀孕了,现在怎么办”和“我妻子怀孕了,我该做什么”。
尽管包含很多奇怪的事实和一次性研究,但本书绝非这些内容的简单拼凑。因为这些方法很新颖,而且只会变得更强大,所以我会提出一些观点,阐明这些方法该如何发挥作用,以及是什么令其具有开创性。当然,我也会坦承大数据的诸多局限。
不少人对数据革命的潜力怀有热情,但其中一些人的确有些跑偏。大多数倾心于大数据的人总会滔滔不绝地说这些数据集会变得多么多么巨大,这种对数据集大小的执着已经不是什么新鲜事了。在谷歌、亚马逊和脸谱网之前,在“大数据”一词出现之前,一场关于“大而复杂的数据集”的会议就曾在得克萨斯州达拉斯市拉开帷幕。而今,斯坦福大学统计学教授(也是我在谷歌工作时的同事)杰里·弗里德曼(Jerry Friedman)回想起1977年召开的那次会议。一位杰出的统计学家想站起来讲话,他会说自己已经积累了惊人的5GB[23]数据。又一位著名的统计学家紧接着会站起来说:“上一位发言者说有GB级的数据。那有什么,我有TB[24]级的数据!”换句话说,这场谈话的重点是你能积累多少信息,而不是你希望用这些信息来做什么,或者你打算回答什么问题。弗里德曼说:“当时我觉得很有趣,好像我们该记住的就是他们的数据集有多大。这样的事至今还在发生!”[25]
今天仍有很多数据科学家正在积累大量的数据集,却很少阐明其重要性。(尼克斯队在纽约很受欢迎的相关数据便是一例。)太多的企业被淹没在数据中,它们有TB级的数据,却很少有主见。我认为数据集的大小总会被高估。对此,还有一个很微妙却很重要的解释,即一种事物的影响越大,有必要观察它的次数就越少。你只需要触碰一次高温火炉就会意识到它很危险,但是你可能需要喝数千次咖啡才能确定它是否会让你头痛。哪个教训更深刻呢?显然是高温火炉,由于其影响很大,烫手的火炉会在你的意识中迅速闪过,只留下非常少的数据。
事实上,最明智的大数据公司常缩减其数据。在谷歌公司,很多重大决定都是基于其全部数据中极少量的样本做出的。[26]你不见得总是需要大量的数据才能得到重要的发现,你需要的是正确的数据。谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。
最重要的是,为了从大数据中获得见解,问题必须问到点上。正如你不能随意用望远镜望向夜空就发现冥王星一样,你也不能下载一大堆数据就指望可以发现人性的秘密。你必须查找有希望的地方,比如在印度以“我丈夫想要……”为开头的谷歌搜索。
本书将会展示如何最合理地使用大数据,并详细解释大数据为什么会这么强大。与此同时,你也会了解我和其他人使用大数据得到的发现,包括:
•有多少男性是同性恋者?
•广告起作用了吗?
•为什么“美国法老王”(American Pharoah)是一匹著名的赛马?
•媒体有偏见吗?
•弗洛伊德式失言(Freudian slips)[27]是真的吗?
•谁逃税了?
•去哪儿上大学重要吗?
•你能掌控股市吗?
•哪里是抚养孩子最好的地方?
•是什么让一个故事人尽皆知?
• 如果你想要第二次约会,那么你应该在第一次约会时说什么?
……
在探讨这些话题之前,我们需要讨论一个更加基本的问题:我们到底为什么需要数据?为此,我会向各位介绍一下我的祖母。
[1] Katie Fretland,“Gallup: Race Not Important to Voters,” The Swamp, Chicago Tribune, June 2008.
[2] Alexandre Mas and Enrico Moretti,“Racial Bias in the 2008 Presidential Election,”American Economic Review 99, no. 2 (2009).
[3] 2009年11月12日,卢·多布斯(Lou Dobbs)在其节目上说,我们生活在一个“后党派及后殖民主义社会”。2010年1月27日,克里斯·马修斯(Chris Matthews)则在他的节目中称:“各种迹象都表明,奥巴马总统已经超越了种族。”其他例子参见Michael C. Dawson and Lawrence D. Bobo,“One Year Later and the Myth of a Post-Racial Society,”Du Bois Review: Social Science Research on Race 6, no. 2 (2009)。
[4] 我的数据有很大一部分都源于谷歌趋势。然而,由于该方法只允许比较不同搜索的相对频率,无法报告任何特定搜索的绝对数量,因此我常使用谷歌广告关键词(Google Adwords)加以辅助,这一搜索方式能准确报告每种搜索的频率。在大多数情况下,我也能够利用自己基于谷歌趋势的算法来锐化图片。有关这一点,我在我的博士学位论文《使用谷歌数据的论文》(Essays Using Google Data)和在《公共经济学》(Journal of Public Economics)上发表的论文《种族敌意对黑人候选人的影响:使用谷歌搜索数据的证据》(The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data)中做过论述。我的博士学位论文、论文链接以及对本书提及的所有原始研究使用的数据和代码的完整解释都可参阅我的个人网站sethsd.com。——作者注
[5] 所有计算的详细信息请参见我的个人网站sethsd.com中标名为“Sex Data”(性数据)的文件,也可查阅网址http://gss.norc.org/获取综合社会调查的数据。
[6] 笔者获取的数据。
[7] kkk即三K党,是美国历史最悠久、最庞大的种族主义组织。——编者注
[8] 笔者对谷歌趋势数据的分析。同样,我也获取了“风暴前线”全部用户的相关数据,相关讨论详见Seth Stephens Davidowitz,“The Data of Hate,”New York Times, July 13,2014, SR4。相关数据可从我的个人网站sethsd.com中标名为“Stormfront”的数据区下载。
[9] 笔者对谷歌趋势数据的分析。这一分析适用于肯塔基、路易斯安那、亚利桑那及北卡罗来纳等各州。
[10] 文章最终还是发表了,详见Seth Stephens-Davidowitz,“The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data,”Journal of Public Economics 118 (2014)。关于这项研究的更多详情都能从该文中找到。此外,也可从我的个人网站sethsd.com中标名为“Racism”(种族主义)的数据区获取相关信息。
[11] 2016年2月28日的一条推文称:“我发现与支持特朗普相关性最强的就是在谷歌网站搜索n开头的单词,其他人也这样说。”也可参见Nate Cohn,“Donald Trump’s Strongest Supporters: A New Kind of Democrat,”New York Times, December 31, 2015, A3。
[12] 这也显示了谷歌搜索中含“黑鬼”一词的比例。要注意的是,我们测量的是谷歌搜索的百分比,因此,在人口众多或搜索量多的地区,百分比并不会高得离谱。请注意,这幅图与支持特朗普的地区分布图之间的某些差异提供了清晰的解释。特朗普之所以失去了得克萨斯州和阿肯色州的支持,是因为这两个州分别是他的两个对手特德·克鲁兹(Ted Cruz)和迈克·赫卡比(Mike Huckabee)的家乡。
[13] 这是大数据公司Civis Analytics 2015年12月的调查数据。受大选时间及选举形式的巨大影响,实际投票数据的作用会大打折扣。经《纽约时报》许可,这幅选举图可供转载。
[14] “Bringing Big Data to the Enterprise,” IBM, https://www-01.ibm.com/software/data/bigdata/what-is-big-data.html.
[15] Nassim M. Taleb,“Beware the Big Errors of ‘Big Data,’”Wired,February 8, 2013, http://www.wired.com/2013/02/big-data-meansbig-errors-people.
[16] 我仔细查看了美国受经济大萧条影响程度不同的地区的互联网种族主义变化情况。无论是谷歌对“黑鬼(们)”的搜索率还是“风暴前线”的会员数,我都对其进行了详细研究。相关数据可从我的个人网站sethsd.com中标名为“Racial Animus”(种族敌意)和“Stormfront”的数据区下载。
[17] Seth Stephens-Davidowitz,“Fifty States of Anxiety,”New York Times, August 7, 2016, SR2.注意:尽管谷歌搜索的确提供了大得多的样本库,但这一模式仍与调查结果一致。例如,参见William C. Reeves et al.,“Mental Illness Surveillance Among Adults in the United States,”Morbidity and Mortality Weekly Report Supplement 60, no. 3 (2011)。
[18] 相关讨论参见Seth Stephens-Davidowitz,“Why Are You Laughing?”New York Times, May 15, 2016, SR9。相关数据可以从我的个人网站sethsd.com中标名为“Jokes”(笑话)的数据区下载。
[19] 相关讨论参见Seth Stephens-Davidowitz,“What Do Pregnant Women Want?”New York Times, May 17, 2014, SR6。
[20] 笔者对色情网站数据的分析。
[21] 相关讨论参见Seth Stephens-Davidowitz,“Searching for Sex,”New York Times, January 25, 2015, SR1。
[22] Stephens-Davidowitz,“What Do Pregnant Women Want?”.
[23] 1GB,即230字节。——编者注
[24] 1TB,即240字节。——编者注
[25] 2015年10月27日,我对杰里·弗里德曼进行了电话采访。
[26] Hal R. Varian,“Big Data: New Tricks for Econometrics,”Journal of Economic Perspectives 28, no. 2 (2014).
[27] 弗洛伊德式失言,是由精神分析学派创始人弗洛伊德提出的一个概念,指人们不经意地说出自己的真实感受,俗称“说溜嘴”。——编者注
如果你已经33岁,连续参加了好几个感恩节派对都没有带伴侣,那大家就会开始关心你的择偶问题了。几乎每个人都有自己的看法。
“赛思应该找一个疯女孩,和他一样。”我姐姐说。
“你疯了吧!他该找个正常的女孩,和他互补。”我弟弟说。
“赛思才不疯呢。”我母亲说。
“你是真疯了!赛思当然很疯!”我父亲说。
说话温柔又腼腆的祖母在整个晚餐过程中一言未发,此刻却突然发话了。在座的纽约人瞬间噤声,所有人的目光都集中在这个留着黄色短发、带着一丝东欧口音的小老太太身上。“赛思,你得找个好姑娘。她不用很漂亮,可得聪明伶俐,待人友善;她得懂社交应酬,这样你才能专心做自己的事;她得有幽默感,因为你也是个有趣的人。”
为什么这个老太太的建议会受到全家人的关注和尊重呢?88岁高龄的祖母比餐桌上其他人都见多识广。一直以来,她关注过许多婚姻,有成功的,也有不成功的。在过去的几十年里,她把成就幸福婚姻的特质做了分类。于是,就在这个感恩节餐桌上,针对择偶问题,祖母开始在她巨大的数据点集里搜寻答案。我的祖母就是一个大数据。
在本书中,我想简化数据科学。不管我们是否喜欢,数据正在我们的生活中扮演越来越重要的角色——其影响力将会越来越大。如今的许多报纸总有整版整版的内容在谈数据,许多公司都拥有专门负责数据分析工作的团队,许多投资人都愿意拿出几千万美元投资持有更多数据的创业公司。即使从未学过如何进行回归分析(社会科学家用来梳理多种因素影响的方法)或计算置信区间,你也会遇到大量数据——读书时会遇到,参加商务会议时会遇到,去饮水机那儿接水时听到的办公室八卦中也会遇到。
许多人对这一发展感到不安。他们惧怕数据,很容易在这个数字的世界中迷失自我,手足无措。他们觉得这种对世界的量化认知是少数左脑发达的天才的事,与他们无关。一旦碰到数字,他们就立马翻页、结束会议或转移话题。
我从事数据分析工作已有10年,且有幸同该领域的许多“大咖”合作过。在此期间,我学到的最重要的一课便是:好的数据科学远没有人们想象的那么复杂。事实上,最好的数据科学便是一种出乎意料的直觉。[1]
为什么数据科学可以凭直觉感知呢?数据科学的核心在于发现不同模式以及预测一个变量如何影响其他变量。人们一直在做这类事情。
只需看看我祖母给出择偶建议的方式就会明白这一点。她利用了自己大脑中的情侣关系大数据库,这个数据库在她近百年的生命中持续更新,包括她从她的家人、朋友及熟人那里听到的许多故事。首先,她把自己的分析限定在某个情侣关系样本中,这个样本中的男性和我有着很多共同特质——敏感、孤僻、幽默;其次,她把目光锁定在女性的重要特质上,比如是否善良、是否聪明、是否漂亮;再次,她把女性的这些重要特质和前述情侣关系中的某个重要特质联系起来,看看是否合拍;最后,她得出自己的结论。换句话说,她辨识出许多模式并且预测一个变量如何影响其他变量。我的祖母就是一位数据科学家。
你也是数据科学家。小时候,你注意到自己一哭,妈妈就会关注你,这就是数据科学。成年后,你发现如果总是抱怨,人们就会渐渐疏远你,这也是数据科学。当人们渐渐疏远你时,你会发现自己越来越不开心。当你越来越不开心时,就会变得越来越不友善。当你变得越来越不友善时,人们就更不愿意和你来往了。数据科学!数据科学!还是数据科学!
因为数据科学太出于本能了,所以我发现,几乎任何一个聪明点儿的人都可以理解最好的大数据研究。如果你无法理解某项研究,那问题或许在于研究本身,而不是你。
想要证明大数据科学的直觉性倾向吗?最近,我偶然发现一项研究,这项研究算得上过去几年展开的最重要的研究之一了,也是我见过的最具直觉性的一项研究。我想让你考虑的不仅是这项研究的重要性,而且包含其体现的本能和直觉特性。
该研究是由哥伦比亚大学和微软共同组成研究团队携手推进的。该团队希望发现什么样的症状可以预示胰腺癌。[2]这种癌症的存活率极低(只有3%的概率能活过5年),但如果发现得早,患者的存活率就会翻番。
研究人员用了什么办法呢?他们利用了必应和谷歌搜索引擎内数万名匿名用户的数据信息。他们总能锁定近来刚被确诊为胰腺癌患者的用户,因为这些用户曾有过明确的搜索,比如“刚刚被确诊为胰腺癌”或“医生说我患胰腺癌了,我还能有什么指望”。
接下来,研究人员对健康症状的搜索进行了研究,他们选取了少量后来被确诊为胰腺癌患者的用户和那些未被确诊的用户进行对比。那么,在短短几周或几个月内,什么样的症状可以预示一个用户将会被确诊为胰腺癌患者呢?
结果令人惊讶。事实证明,先后搜索“背部疼痛”和“皮肤发黄”这两个词条的用户最终都被确诊为胰腺癌患者,而只搜索“背部疼痛”的用户则不太可能得这个病;同样,搜索“消化不良”和“腹痛”这两个词条的用户都被确诊为胰腺癌患者,而只搜索“消化不良”则意味着此人不太可能罹患此病。研究人员可以识别5%~15%的案例,几乎没有误报。尽管这也许算不上很大的概率,但如果你是胰腺癌患者,即便只有10%的概率可以使你的存活率翻番,也算是上天的恩赐了。
详述该研究的论文对非专业人员来说可能就比较晦涩难懂了。论文中包含大量专业术语,比如KS –检验(Kolmogorov-Smirnov test),不得不承认连我都忘记它是什么意思了。(这是判断一个模型是否和数据准确匹配的方法。)
然而,请你注意,这项重要的研究从根本上来说是具有极强的本能性和直觉性的。研究人员研究了各种各样的医疗案例,并尝试将症状与特定疾病联系起来。你知道还有谁使用这种方法来弄清楚某人是否患了某种疾病吗?伴侣、父母,以及医生和护士。根据经验和知识,他们将发热、头痛、流鼻涕、胃痛等症状和各种疾病联系起来。也就是说,哥伦比亚大学和微软的研究人员通过利用每个人用来做健康诊断的自然且显而易见的方法,撰写了一篇具有开创性的研究论文。
先别急,咱们慢慢来。如我所说,如果最好的数据科学的方法通常既具有本能性又具有直觉性,那么一个关于大数据价值的根本问题就来了。如果人类天生就是数据科学家,如果仅凭直觉就能研究数据科学,那么为什么我们还需要电脑或统计软件呢?为什么我们还需要KS –检验呢?我们就不能相信直觉吗?不能像祖母那样,不能像医生或护士那样吗?
马尔科姆·格拉德威尔(Malcolm Gladwell)的畅销书《眨眼之间》(Blink)发行后激发了人们对上述问题的讨论。该书极力赞扬人类直觉的魔力。格拉德威尔在书中举了许多例子:一个人仅凭自己的直觉就可以辨别一座雕像是真是假,网球运动员在打到球之前是否会出差错,消费者愿意花多少钱,等等。《眨眼之间》里的主人公们没有人做回归分析或计算置信区间,也没有谁进行KS –检验,但他们通常都能做出准确的预测。许多人不由自主地支持格拉德威尔为直觉的辩护:他们相信自己的直觉和感觉。《眨眼之间》的“粉丝”或许要为我的祖母欢呼鼓掌了,因为她未借助电脑就为我提出了择偶建议;而对于我的研究和本书中其他借助电脑展开的研究,他们恐怕就不以为然了。如果说大数据(我说的是和电脑有关的大数据,不是我祖母那种)是一次革命,我们就得证明它比格拉德威尔所“神化”的直觉更具说服力。
哥伦比亚大学和微软的研究提供了严谨的数据科学与电脑相结合的明显例证,该例证告诉我们有些事仅凭直觉是永远无法了解的。这个例子也说明数据集大小的重要性。有时候我们的经验不足,无法通过直觉得出结论。你(或你亲密的朋友或家人)似乎不太可能见过足够多的胰腺癌病例,更不可能以此辨识消化不良伴随腹痛的症状和纯消化不良症状之间的差别。事实上,随着必应数据集的不断增大,研究人员在症状辨识(不仅限于这一种疾病)上会发现更多微妙的模式,即使是医生也有可能忽略这些模式的存在,这是不可避免的。
此外,尽管直觉也许常常让我们感觉很了解这个世界的运作方式,但这种感觉往往是不确切的。我们需要用数据使其清晰化。以天气影响心情为例。你可能会猜测,和70华氏度(约21摄氏度)相比,人们在10华氏度(约零下12摄氏度)的低温下更容易感到失落。其实,这种猜想是对的,但你可能猜不到这种温差产生的影响有多大。我查询过一个地区有关抑郁的谷歌搜索与很多因素(包括经济状况、教育水平和教堂活动参与度)之间的关联性。冬季气候产生的影响最为明显。[3]冬天,在温暖的夏威夷檀香山,抑郁的相关搜索频率比在寒冷的伊利诺伊州芝加哥低了40%。这个效果有多么显著呢?乐观地说,药效最佳的抗抑郁药物也仅能使抑郁症的发生率降低约20%。依据谷歌的数据判断,从芝加哥搬到檀香山对治疗“冬季抑郁”的功效可比药物治疗高出整整一倍啊。[4]
如果没有电脑精确分析的引导,我们的直觉有时甚至会犯下致命大错。我们可能会被自己的经历或偏见蒙蔽双眼。事实上,尽管我的祖母可以凭借她多年的经验给出比其他家庭成员更好的择偶建议,但对于是什么让爱情得以延续这一问题,她的观点依然是没有说服力的。比如,她总是跟我强调有共同好友的重要性。她相信她婚姻成功的一大秘诀是:几乎每个傍晚都和丈夫(也就是我的祖父)闲坐在纽约皇后区家中后花园里的草坪躺椅上,八卦着左邻右舍的鸡毛蒜皮。
尽管要冒着让我的祖母当替罪羊的风险,但数据科学的确证明祖母的理论错了。最近,一个计算机科学家团队对人类关系中最大的数据集脸谱网进行了分析。[5]他们观察了大量关系在某一时刻显示为“恋爱中”的伴侣,其中部分伴侣始终保持“恋爱中”的状态,而其他伴侣则将自己的状态改成了“单身”。该调查表明,有共同的好友圈其实是一个强预测器,预示着一段爱情长不了!也许每晚都和伴侣及一小撮固定的朋友闲逛真算不上一件好事,各自独立的社交圈也许才有助于巩固两性关系。
正如各位所见,在没有电脑帮助的情况下,我们的直觉有时确实让人眼前一亮,但直觉有可能酿成大错。我的祖母可能陷入了一个认知的泥沼:我们倾向于夸大个人经验的作用。用数据科学家的话说就是,我们总会给自己的数据加权,总是过于重视一个特别的数据点——我们自己。
因为祖母过于关注和祖父的饭后闲聊以及他们共同的朋友,所以很少考虑其他夫妻的情况。她完全忘记了她的妹妹和妹夫也总是在晚上聊起他们那一小撮共同好友,可仍然经常吵架,最后以离婚收场。她也完全忽略了我的父母(她的女儿和女婿)的婚姻状况。我的父母各有各的去处——父亲和朋友一起去爵士酒吧或去看球,母亲则和朋友出门吃饭或去剧院,他们的婚姻依然幸福美满。
人类总是痴迷于戏剧性的事情,依靠直觉时,我们还有可能为这种本性所误导。我们总会高估所有令人印象深刻的事物的作用。比如,一项调查显示,人们一致认为龙卷风致死人数多于哮喘[6],但事实上,因哮喘失去生命的人数是因龙卷风失去生命人数的70倍。[7]因为哮喘致死人数不突显,也不会上新闻,而龙卷风会。
换句话说,当我们凭借自己的亲耳所闻或亲身经历来判定这个世界的运作模式时,通常都会出错。虽然最好的数据科学方法通常是具有直觉性的,但其结果多是反直觉的。数据科学采用既具本能性又具直觉性的人工流程(先发现模式,而后理解其内涵)并向其中注入更多功能,这样我们可能会看到这个世界的运作方式与我们之前想象的完全不同。这就是我在研究篮球运动员成材率的预测指标时所发生的事。
当我还是个孩子的时候,曾经有过一个梦想,也是唯一一个梦想:我长大了要当一名经济学家和数据科学家。不不,我不过是开个玩笑罢了。那时我其实超想做个职业篮球运动员,追随我的偶像——纽约尼克斯队前全明星中锋帕特里克·尤因(Patrick Ewing)的步伐。[8]
我有时候怀疑每个数据科学家的心中都有一个孩子,这个孩子一直在努力弄明白为什么他儿时的梦想没能实现,所以最近我做了一项关于“如何才能进入NBA(美国男子职业篮球联赛)”的调查,这也就不足为奇了。调查的结果出乎意料。事实上,这些结果再次证明了好的数据科学可以改变我们的世界观,也证明了数据和人类直觉有多么不一致。
我特别关注的问题是这样的:是在贫穷家庭长大的孩子更有可能进入NBA,还是在中产阶层家庭长大的孩子更有可能?
大多数人会猜测是前者。传统观念认为,在困境中(比如由单身的未成年母亲抚养)成长有助于培养必要的驱动力,以达到这一竞争激烈的体育运动的顶级水平。
费城一所高中的篮球教练威廉·埃勒比(William Ellerbee)在接受《体育画报》(Sports Illustrated)采访时表达了这一看法。“郊区的孩子打篮球往往是为了玩乐,”埃勒比说,“而内城的孩子则把篮球看作生死攸关的事情。”[9]唉,我在新泽西郊区长大,生活在父母双全的家庭;而当代最好的球员勒布朗·詹姆斯(LeBron James)却生在俄亥俄州阿克伦,由一位贫穷的16岁单身母亲抚养成人。
事实上,我发起的一项互联网调查表明,大多数美国人与我和埃勒比教练的想法是一样的:大多数NBA球员都出身寒门。[10]
这个传统观念是否正确呢?
我们来看看数据是怎么说的。虽然没有NBA球员社会经济学的综合数据来源,但是通过数据分析,通过利用大量资料源(篮球数据网站basketball-reference.com、族谱网站ancestry.com、美国人口普查等数据),我们可以弄清楚什么样的家庭背景最有利于一名篮球运动员进入NBA。你会发现,这项研究所覆盖的数据源十分广泛,有的十分庞大,而有的则比较小;有的来源于线上,有的则来源于线下。有的新数据源实在令人振奋,如果它们能帮上忙,一名优秀的数据科学家是不会只参考那些旧数据源的。获得答案的最佳方式是将所有可用数据都结合起来。
第一个相关数据就是每名运动员的出生地。我记录了20世纪80年代美国每个县出生的黑人男孩和白人男孩的数量。随后,我又记录了其中有多少人成功进入了NBA。我将这一数字和每个县的平均家庭收入做了对比,还掌握了各县的种族人口统计数据(这是另一本书的主题),最后我发现黑人进入NBA的可能性比白人大40倍。
数据显示,如果一个孩子出生在富裕的县,他就有更多的机会进入NBA。例如,一个在美国最富裕的县出生的黑人孩子,与一个在美国最贫穷的县出生的黑人孩子相比,进入NBA的机会要多出两倍多;而对一个白人孩子来说,若出生在最富裕的县,其进入NBA的概率比出生在最贫穷的县大60%。
这些数据表明,与人们的普遍看法不同,NBA中出身贫寒的运动员实际上数量极少。然而,这个数据并不完美,因为美国许多富裕的县、区,如纽约(曼哈顿),也有许多类似哈勒姆这样的贫困区。所以,艰苦的童年仍有可能帮助你进入NBA。我们还需要更多的线索、更多的数据。
于是,我又调查了NBA球员的家庭背景。这些信息是从新闻报道和社交网络中找到的。这种方法相当耗时,所以我把分析限定在20世纪80年代出生的100个得分最高的非洲裔球员中。与美国的普通黑人相比,NBA超级明星球员中有未成年母亲或未婚母亲的比例低了约30%。也就是说,最杰出的NBA黑人球员的家庭背景表明,舒适的成长环境更有利于获得成功。
尽管如此,不论是县级的出生数据还是作为特定样本的那些球员的家庭背景都无法提供所有NBA球员童年的完美信息。所以,我还不能完全相信与单亲家庭及贫困家庭相比,在双亲的中产阶层家庭中会诞生更多NBA球星。在这个问题上,我们提供的数据越多越好。
后来我又想起了一个数据点,这个数据点可以为个人背景调查提供有效线索,是由罗兰·弗赖尔(Roland Fryer)和史蒂芬·列维特(Steven Levitt)这两位经济学家在一篇论文中提出的——黑人的名字能够体现其社会经济背景。[11]弗赖尔和列维特早在20世纪80年代就在加利福尼亚州对人们的出生证明做过研究,他们发现,在非洲裔美国人中,贫穷、未受过教育的单身母亲倾向于给孩子起一个不同于受过教育的中产阶层已婚父母给孩子起的名字。
富裕家庭的父母倾向于给孩子取一个常见的名字,如凯文、克里斯和约翰,而那些贫困家庭的单身母亲则更有可能给孩子取一个独特的名字,如诺肖恩、尤尼克和布雷昂谢。出身贫寒的非洲裔美国孩子得到一个标新立异的名字的概率接近同年出生的其他孩子的两倍。
那么NBA球员的名字又是什么样的呢?是更像中产阶层家庭出身还是更像在贫寒人家长大的呢?还是以20世纪80年代为例,在加利福尼亚州出生的NBA球员中有一半的人和一般黑人男性一样拥有特别的名字,这是统计上的显著差异。
总有人认为NBA是属于贫民窟那帮孩子的联盟,你认识这样的人吗?让他仔细听听下一场比赛的广播,注意一下是不是常常听到“拉塞尔运球躲过德怀特,试图将球滑过约什伸出的手臂,最后传到凯文的手中”。如果NBA真的是出身贫寒的黑人的联盟,那他听到的可能大不相同,肯定会有更多人取一个像勒布朗这样的名字。
截至目前,我们已经搜集了三份不同的证据:出生地、得分王母亲的婚姻状况和球员的名字。三份证据都不够完美,但都印证了相同的结果——社会经济地位越高,意味着进入NBA的可能性就越大。也就是说,传统的观念是错误的。
20世纪80年代,约有60%的非洲裔美国人出生时父母处于未婚状态。[12]据我估计,在那10年里出生并且进入NBA的非洲裔美国人中,绝大多数人的父母都处于已婚状态。换句话说,NBA中身世背景像勒布朗·詹姆斯那样的人并不多,更多的人像克里斯·波什(Chris Bosh)一样——由得克萨斯州的一对夫妇抚养长大,父母从小培养了他对电子产品的兴趣,或者像克里斯·保罗(Chris Paul)一样,他是北卡罗来纳州刘易斯维尔市一对中产阶层夫妇的二儿子,2011年,他和他的家人还一起参加了《家庭问答》(Family Feud)节目。[13]
数据科学家的目标是了解世界。一旦发现了反直觉性的结果,我们就可以运用更多的数据科学知识来解释为什么世界并非我们看到的那样。例如,为什么出身中产阶层家庭的人打篮球比出身贫困家庭的人更具优势?原因至少有两个。
第一个原因是穷人往往个子比较矮。很早以前,学者就知道童年时期的医疗保健和营养补给会对成年后的健康状况产生重要影响。这就是现在发达国家普通人的平均身高比一个半世纪前高4英寸(约10厘米)的原因。[14]数据表明,由于童年时期医疗保健条件差且营养不良,家庭贫困的美国人普遍较矮。[15]
数据还可以告诉我们身高对进入NBA的影响。仅凭直觉你也一定会知道,身材高大可以让一个有抱负的篮球运动员如虎添翼。将球场上普通球员的身高与看台上普通男性球迷的身高做个对比,就会明白这一点。NBA球员的平均身高约为6英尺7英寸(约200厘米),普通美国男性的平均身高约为5英尺9英寸(约175厘米)。[16]身高有多重要呢?NBA球员有时会谎报自己的身高,反正也没有美国男性身高分布的完整记载。如果对这个身高分布做一个粗略的数学估算,再看看NBA的球员身高数据,很容易就可以确定身高的巨大影响,其影响也许比我们预想的还要大。据我估算,身高每增加1英寸(2.54厘米),进入NBA的概率便会翻番。这个规律适用于所有美国男性。身高5英尺11英寸(约180厘米)的男子进入NBA的概率是身高5英尺10英寸(约178厘米)的男子的两倍,身高6英尺11英寸(约211厘米)的男子进入NBA的概率是身高6英尺10英寸(约208厘米)的男子的两倍。数据还显示,在身高不足6英尺(约183厘米)的男性中,每200万人中大约只有一人能进入NBA;而在身高超过7英尺(约213厘米)的人中,据我和其他人估计,每5人中就有一人可以进入NBA。[17]
这下你知道了吧,数据证实了我的“球星梦”幻灭的原因——不是我在郊区长大,而是我只有5英尺9英寸高,还是个白人(更别提速度慢了)。况且,我还很懒;体力不好;投篮姿势糟糕;球到了我的手上,我还不时会紧张得要死。
来自贫困家庭的孩子很难进入NBA的第二个原因,是他们有时缺乏一定的社交技能。通过对数千名学龄儿童的数据研究,经济学家发现,一般来说,中产阶层的双亲家庭培养的孩子更可靠、更自律、更执着、更专注,也更有组织性。[18]
那么,社交技能的匮乏是如何让一份前景看好的篮球事业偏离正常的发展轨道的呢?
我们来看看道格·伦(Doug Wrenn)的故事,他曾被视为20世纪90年代最有职业前途的球星之一。他的大学教练,康涅狄格大学的吉姆·卡尔霍恩(Jim Calhoun)教练(他曾经训练过多位未来的NBA球星)称道格·伦是所有曾经与他合作过的人中跳跃能力最强的。[19]然而,道格的成长并非一帆风顺。[20]他从小同单亲母亲相依为命,在西雅图最乱的社区之一“血巷”(Blood Alley)长大。在康涅狄格大学,他一直与周围的人发生冲突。他嘲笑队友,质疑教练,还不顾队规穿着宽宽大大的衣服参加训练。他甚至还做出在鞋店行窃、谩骂警察等违法行为。卡尔霍恩教练实在忍无可忍,最后把他从球队开除。
后来,道格在华盛顿大学又获得了一次机会,可是在那儿,他仍然无法和人们友好相处,葬送了自己的前途。因为上场时间和投篮时机选择等问题,他和教练大打出手,这支球队也将他踢了出去。再后来,道格在NBA选秀大会上落选,在低级别联赛中游走,和母亲住在一起,最后因袭击他人而入狱。“我的职业生涯完了,”2009年道格接受《西雅图时报》(Seattle Times)采访时说道,“我的梦想,我的抱负,全完了。道格·伦死了,那个篮球运动员,那个小伙子,死了。一切都结束了。”[21]凭道格的天分,他本来不仅能成为一名NBA球员,而且有可能成为一名伟大的,甚至是带有传奇色彩的球员,但他从未养成一名球员所需的性情,因此就连大学校队都没能待住。如果曾经拥有更加稳定的童年生活,或许他早就成为下一个迈克尔·乔丹了。
当然,迈克尔·乔丹也有令人印象深刻的垂直跳跃能力,但强大的自我意识和极强的竞争能力使他的性格与道格有所不同。乔丹儿时也是一个很难搞定的孩子[22],12岁时曾因打架斗殴被赶出学校,但他至少有一样东西是道格不具备的:一个稳定的中产阶层家庭的成长环境。他的父亲是通用电气的设备主管,母亲是一位银行家。[23]在乔丹选择自己事业的道路上,他们都曾给予过乔丹帮助。
事实上,乔丹一路走来一直都有家人的引导和帮助,所以他才可以避过一个极具竞争力的伟大篮球天才很可能躲不过的陷阱。[24]在乔丹被学校开除后,他的母亲就一直带着他去上班。母亲不允许乔丹离开车半步,他只能坐在停车场的车里看书。在乔丹被芝加哥公牛队征募后,他的父母和兄弟姐妹轮番去探望他,确保他没有为名利所诱惑。
《西雅图时报》上有句话很少有人注意到:乔丹的篮球职业生涯没有像道格那样走向终结,他的职业生涯是以他步入篮球名人堂之际的一场演说结束的,当时可谓万众瞩目。[25]在演说中,乔丹说,他一直努力“关注生活中美好的事物——你知道人们是如何看待你的,你又是如何尊重他们的……而公众又是如何看待你的。停一停,想想你做的事情。这一切都是我的父母教会我的”。
数据告诉我们,乔丹感谢他中产阶层的已婚父母是绝对正确的。数据还告诉我们,在比较贫困的家庭中和比较贫困的社区里的确有NBA级别的人才,可他们进不了NBA。这些人有天赋,也有野心,但从来没有培养出成为超级篮球巨星所需的性情。
不论我们凭直觉能够感知到什么,这种视篮球为“生死大事”的绝境似乎依旧无助。类似道格·伦这样的故事可以帮助我们说明这一点,数据也证明了这一点。
2013年6月,勒布朗·詹姆斯在赢得他的第二个NBA总冠军(后来他又赢得了第三个)后,在电视上接受采访。“我是勒布朗·詹姆斯,”他说道,“来自俄亥俄州的阿克伦,我来自城内贫民区,我甚至都不应该出现在这里。”[26]随后推特和其他社交网络上对他的批评排山倒海。詹姆斯这样一个天赋异禀的篮球天才,年纪很小时就被视为篮球的未来,他怎么可以公然宣称自己是个失败者呢?事实上,任何一个出身贫寒的人,无论其运动天赋如何,成功的机会都很渺茫。换句话说,詹姆斯的成就其实比起初看起来更加超凡。数据同样也证明了这一点。
[1] 我指的是我熟悉的数据分析领域的知识,即尝试解释并预测人类行为的数据科学,而非类似无人驾驶技术等人工智能。尽管这些方法确实使用从人脑中发现的各类工具,却并不容易理解。
[2] John Paparrizos, Ryan W. White, and Eric Horvitz,“Screening for Pancreatic Adenocarcinoma Using Signals from Web Search Logs: Feasibility Study and Results,”Journal of Oncology Practice (2016).
[3] 关于这项研究的讨论参见Seth Stephens-Davidowitz,“Dr. Google Will See You Now,”New York Times, August 11, 2013, SR12。
[4] 大爆料:完成这项研究之后不久,我就从加利福尼亚搬到了纽约。使用数据来学习你应该做什么通常很简单,但做起来实在太难了。——作者注
[5] Lars Backstrom and Jon Kleinberg,“Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook,” in Proceedings of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing(2014).
[6] Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar,Straus and Giroux, 2011).
[7] 1979—2010年,年均有55.81名美国人死于龙卷风袭击,4 216.53名美国人死于哮喘。参见Annual U.S. Killer Tornado Statistics,National Weather Service, http://www.spc.noaa.gov/climo/torn/fatalmap.php和Trends in Asthma Morbidity and Mortality, American Lung Association, Epidemiology and Statistics Unit。
[8] 我最喜欢的有关尤因的视频集锦是“Patrick Ewing’s Top 10 Career Plays,” YouTube video, posted September 18, 2015, https://www.youtube.com/watch?v=Y29gMuYymv8和“Patrick Ewing Knicks Tribute,” YouTube video, posted May 12, 2006, https://www.youtube.com/watch?v=8T2l5Emzu-I。
[9] S. L. Price,“Whatever Happened to the White Athlete?”Sports Illustrated , December 8, 1997.
[10] 这是我在2013年10月22日进行的谷歌消费者调查。我的问题是:“你认为大多数NBA球员的出生地是哪里?”两个选项分别为“贫民区”和“中产阶层区”,59.7%的受访者选择了“贫民区”。
[11] Roland G. Fryer Jr. and Steven D. Levitt,“The Causes and Consequences of Distinctively Black Names,”Quarterly Journal of Economics 119, no. 3 (2004).
[12] Centers for Disease Control and Prevention,“Health, United States, 2009,” Table 9, Nonmarital Childbearing, by Detailed Race and Hispanic Origin of Mother, and Maternal Age: United States,Selected Years 1970–2006.
[13] “Not Just a Typical Jock: Miami Heat Forward Chris Bosh’s Interests Go Well Beyond Basketball,” Palm Beach Post.com,February 15, 2011, http://www.palmbeachpost.com/news/sports/basketball/not-just-a-typical-jock-miami-heat-forward-chris-b/nLp7Z/; Dave Walker,“Chris Paul’s Family to Compete on ‘Family Feud’,” nola.com, October 31, 2011, http://www.nola.com/tv/index.ssf/2011/10/chris_pauls_family_to_compete.html.
[14] “Why Are We Getting Taller as a Species?”Scientific American,http://www.scientificamerican.com/article/why-are-we-getting-taller/. 有趣的是,美国人的个头不再增高了。Amanda Onion,“Why Have Americans Stopped Growing Taller?” ABC News, July 3,2016, http://abcnews.go.com/Technology/story?id=98438&page=1.我曾经认为,NBA外籍球员数激增的原因之一就是其他国家的球员与美国球员的身高差距在不断缩小。1946—1980年,美国人的身高不断增长,因此NBA联盟中出生于美国、身高7英尺的球员人数增长了16倍。在美国人不再长个儿后,这一数值开始趋于平稳。与此同时,身高7英尺以上的外籍球员数量则大量增长。我发现,国际球员人数增长最多的一直是来自各国的超高球员,他们大多来自土耳其、西班牙和希腊,这些国家近年来对儿童健康和成人身高的关注度显著提高。
[15] Carmen R. Isasi et al.,“Association of Childhood Economic Hardship with Adult Height and Adult Adiposity among Hispanics/Latinos: The HCHS/SOL Socio-Cultural Ancillary Study,”PloS One 11, no. 2 (2016); Jane E. Miller and Sanders Korenman,“Poverty and Children’s Nutritional Status in the United States,”American Journal of Epidemiology 140, no. 3 (1994);Harry J. Holzer, Diane Whitmore Schanzenbach, Greg J. Duncan,and Jens Ludwig,“The Economic Costs of Childhood Poverty in the United States,”Journal of Children and Poverty 14, no. 1 (2008).
[16] Cheryl D. Fryar, Qiuping Gu, and Cynthia L. Ogden, “Anthropometric Reference Data for Children and Adults: United States,2007–2010,”Vital and Health Statistics Series 11, no. 252 (2012).
[17] Pablo S. Torre,“Larger Than Real Life,”Sports Illustrated, July 4,2011.
[18] Tim Kautz, James J. Heckman, Ron Diris, Bas Ter Weel, and Lex Borghans,“Fostering and Measuring Skills: Improving Cognitive and Non-Cognitive Skills to Promote Lifetime Success,” National Bureau of Economic Research Working Paper 20749, 2014.
[19] Desmond Conner,“For Wrenn, Sky’s the Limit,”Hartford Courant, October 21, 1999.
[20] 道格·伦的故事参见Percy Allen,“Former Washington and O’Dea Star Doug Wrenn Finds Tough Times,”Seattle Times, March 29,2009。
[21] 道格·伦的故事参见Percy Allen,“Former Washington and O’Dea Star Doug Wrenn Finds Tough Times,”Seattle Times, March 29,2009。
[22] Melissa Isaacson,“Portrait of a Legend,” ESPN.com, September 9, 2009, http://www.espn.com/chicago/columns/story?id=445701 7&columnist=isaacson_melissa.有一本乔丹传记写得很棒,参见Roland Lazenby, Michael Jordan: The Life (Boston: Back Bay Books, 2015)。
[23] Barry Jacobs,“High-Flying Michael Jordan Has North Carolina Cruising Toward Another NCAA Title,”People, March 19, 1984.
[24] Isaacson,“Portrait of a Legend.”
[25] Michael Jordan’s Basketball Hall of Fame Enshrinement Speech,YouTube video, posted February 21, 2012, https://www.youtube.com/watch?v=XLzBMGXfK4c. 乔丹演说中最有趣的部分不是他对父母的感激,而是他仍然感觉有必要指出其职业生涯早期的点滴小事。或许只有终生都痴迷于这些点滴小事,才有可能成为有史以来最伟大的篮球运动员吧。
[26] “I’m Le Bron James from Akron, Ohio,” YouTube video, posted June 20, 2013, https://www.youtube.com/watch?v=XceMbPVAggk.
我最近看到有人把一个走在街上的人称作“penistrian”。你抓到我说的点了,对吧?是“penistrian”,而不是“pedestrian”(行人)。这是我在一个大型排印错误数据集中看到的。一个人看到有人在走路,于是写下“penis”(阴茎)一词。这一定意味着什么,对吧?
一名男子梦到他走上圣坛迎娶妻子时口中还吃着香蕉,这是我在一个人们用以记录自己梦境的应用程序的大型数据集中看到的。一个男人想象着在自己结婚时嘴里还吃着生殖器形状的东西,这也一定意味着什么,对吧?
西格蒙德·弗洛伊德的理论是正确的吗?自从他的理论第一次进入公众视野以来,人们对这个问题最诚实的回答都是耸耸肩。只有奥地利裔英国哲学家卡尔·波普尔(Karl Popper)对这一问题做出了明确回答,他高调宣称我们无法验证弗洛伊德的理论。也就是说,没有任何办法可以验证这些理论的真伪。
弗洛伊德可以说那个写“penistrian”的人想要表达自己可能被压制的性欲。这个人可以回答说她并没有想要表达什么或者她就是很容易犯拼写错误,比如把“pedestrian”写成“pedaltrian”。这就是男女两性间的对话情境。弗洛伊德可以说那个梦到结婚时还在吃着香蕉的男子是在背地里想着男性生殖器,这表明他想要结婚的对象是男人而不是女人。那个男子可以回答说他只是碰巧梦到了一根香蕉,他也可能梦到走上圣坛时在吃苹果。这就是两位男性之间的对话情境。过去我们没有办法将弗洛伊德的理论应用于实际测试中。
现在有办法了。
数据科学证实弗洛伊德的许多理论是毫无根据的——这门科学将他的许多著名理论应用于测验中。我们从梦中的生殖器符号开始吧。运用有案可查的许多梦境的大型数据集,我们可以很快注意到阴茎形状的物体在梦中出现的频率。食物是这项研究的重点关注对象。食物会出现在许多梦中,许多食物的形状都和阴茎相似——香蕉、黄瓜、热狗等。然后,我们可以估量一下是什么因素让我们梦到某些特定食物的次数多于其他食物,比如多久食用一次这些食物,大多数人觉得它们的味道怎么样,以及这些食物是否具有和阴茎类似的性状。
我们可以测试两种食物在梦中出现的次数是否相同,这两种食物同样受欢迎,但其中一个形似阴茎。如果形似阴茎的食物出现在梦中的频率并不比另一种食物高,那么生殖器符号在人们的梦中就不是重要因素。借助大数据,弗洛伊德的这一理论也许真的可以被证伪。
我得到了应用软件Shadow(影子)的数据,这款软件要求用户把他们的梦记录下来。我对其中数万个梦境中出现的食物进行了编号。
总的来说,是什么让我们梦到食物呢?主要的预测指标就是我们消费这些食物的频率。最常出现在梦中的物质是水。排在前20的食物包括鸡肉、面包、三明治和米饭——显然都与弗洛伊德的性压抑说无关。
食物在梦中出现频率的第二个预测指标是人们对其味道的喜爱程度。人们最常梦到的两种食物(巧克力和比萨)都非常美味,但也与弗洛伊德的性压抑说无关。
那么形似生殖器的食物情况又如何呢?这些食物在梦中出现的频率会出人意料吗?答案是否定的。
香蕉是人们梦中出现频率第二高的水果,但也是生活中食用频率第二高的水果。所以,我们不需要弗洛伊德来解释我们为何会频频梦到它。黄瓜是人们梦中出现次数排名第七的蔬菜,也是生活中食用频率排名第七的蔬菜。这再一次证明食物的形状不见得能解释它们为何会潜入我们的梦境。热狗在梦中出现的频率远远低于汉堡,即使对人们食用更多汉堡的现状加以控制,情况也是如此。
总体来看,在对所有水果和蔬菜进行回归分析后,我发现对一种食物而言,因形似阴茎而出现在人们梦境中的可能性并不如其受欢迎程度来得大。[1]弗洛伊德的这一理论是可以被证伪的——至少,根据我对数据的研究,这个理论是错误的。
接下来,再来看看弗洛伊德式失言。弗洛伊德假定人们用失误(口误或笔误)来表达自己的潜意识,通常和性相关。可以使用大数据来检验这一理论吗?有这样一种办法:看看我们的失误(失言)是否有性的倾向。如果我们深埋的性欲望在失言中露出尾巴,就应该有大量包括“penis”(阴茎)、“cock”(大鸟)和“sex”(性)等字样的错误出现。
这就是我要研究微软研究人员搜集的那4万多个打字错误的数据集的原因。[2]这个数据集中包含人们打错字后立即纠正的错误。在这几万个错误中,有很多人的错误和性有关,有前文中提到的“penistrian”,还有人输入“sexurity”而不是“security”(安全),输入“cocks”而不是“rocks”(岩石),但也有很多“毫无邪念”的拼写错误,比如“pindows”“fegetables”“aftermons”“refriderator”[3]等。
那么,和性相关的失言次数有什么非同寻常之处吗?
为了找到答案,我首先使用了微软的数据集来模拟人们错误替换特定字母的频率。我计算了用字母s替换字母t和用字母h替换字母g这两种情况的频率。其次,我创建了一个模拟人类犯错方式的计算机程序,我们可以称之为Error Bot。Error Bot以与微软研究中相同的频率用字母s替换字母t、用字母h替换字母g等。我用这个程序对人们在微软研究中同样的错词进行了操作。也就是说,Error Bot试图拼出“pedestrian”“rocks”“window”“refrigerator”,但是它像人类一样,用字母t替换了字母r,拼出了“tocks”;它也像人类一样,用字母c替换了字母r,拼出了“cocks”。
通过比较Error Bot和粗心的人类,我们能了解到什么呢?在以人类替换字母的方式制造出数百万个错误之后,Error Bot犯了许多弗洛伊德性质的错误。它把“seashell”(贝壳)拼成“sexshell”,把“lipstick”(口红)拼成“lipsdick”,把“luckiest”(最幸运的)拼成“fuckiest”,此外还有许多其他类似的错误。重点来了,毫无潜意识的Error Bot和人类一样,也会犯与性相关的错误。这个研究警示我们,就像许多社会学家常说的一样,我们还需要做更多的研究。也就是说,这种与性相关的错误并不是人们故意为之的,而是无意间发生的。
换句话说,虽然某种思维理论认为人们会通过自己的失误透露内心秘不可宣的欲望,但对那些犯下“penistrain”“sexurity”“cocks”这类拼写错误的人来说,不见得这些错误和一些禁忌就存在某种联系。典型的拼写错误频率完全可以解释人们的“手滑”。人们会犯很多错误。如果你犯的错误足够多,最终你也会开始说“lipsdick”“fuckiest”“penistrain”这类单词。如果一只猴子一直打字,它最终也会打出“to be or not to be”(生存还是死亡)这样的文字。如果一个人一直打字,她最终一定会打出“penistrian”这样的单词。
弗洛伊德关于失误可以揭示人们潜意识需求的理论被证实是毫无根据的——并且根据我的数据分析,这个理论根本就是错误的。
大数据告诉我们,香蕉就是香蕉,“penistrain”也只是“pedestrian”的错误拼写罢了。
那么,弗洛伊德所有的理论都是无稽之谈吗?不完全是。第一次接触色情网站的数据时,我有一个意外发现,这些数据确实有点儿弗洛伊德的意思。事实上,这是我在数据调查期间发现的最令人惊讶的事情之一:大量访问主流色情网站的人都在搜索乱伦主题的图片。
男性搜索排名前100的词条中有16个在搜索乱伦主题的视频。男性对乱伦的搜索多是关于母子的场景,那么女性呢?女性搜索排名前100的词条中有9个是对乱伦主题的视频搜索,这些搜索具有相似的内容,只不过提及的家长和孩子的性别通常是调转的。因此,女性对乱伦的诸多搜索是以父女场景为主的。
至少在这个数据中不难找到弗洛伊德俄狄浦斯情结(恋母情结)的微弱回声。他假定几乎所有人在童年时期都有和异性家长发生性关系的欲望,但这一欲望在之后被抑制住了。真希望这位维也纳心理学家在世的时间能长一些,如此他便可以将自己的分析技巧用在色情网站的数据上了,这些数据中体现的似乎就是成年人对异性家长的兴趣,那种几乎没有受到任何压制的、毫不掩饰的兴趣。
当然,色情网站数据无法确切地告诉我们,在观看这些视频时,人们真正幻想的人是谁。他们真的是在幻想和自己的父母做爱吗?谷歌搜索可以提供更多的线索,确实有很多人有这样的欲望。
仔细想想“我想和……做爱”这一形式的所有搜索就会明白。[4]补全这一搜索最常见的词汇就是“妈妈”。总的来说,这种形式的搜索中超过3/4是有关乱伦的,这并非特定措辞的结果。以“我被……吸引”这一搜索形式为例,承认乱伦欲望的补全方式甚至占据了主导地位。现在我承认(弗洛伊德可能要失望了),这些并不是很常见的搜索:在美国,每年有数千人承认他们对母亲的爱慕。我们也不得不告诉弗洛伊德一个坏消息,谷歌搜索有时会偏向那些禁忌话题,这一问题在本书后文中会做进一步的讨论。
话说回来,人们还有很多不恰当的爱慕表达,我本该预料到相关搜索会在搜索中反复出现。老板?员工?学生?医生?病人?妻子的闺密?女儿的好友?妻子的妹妹?铁哥们儿的妻子?这些坦诚的欲望都不能与妈妈相比。结合色情网站数据,或许这真的意味着什么吧。
弗洛伊德一直认为,一个人的性偏好是受其童年经历影响的,这一观点也得到了谷歌和色情网站数据的支持。这些数据显示,男性保留了很多与童年有关的性幻想。根据妻子对丈夫的搜索数据,在排名靠前的成年男性恋物癖中,有一些是希望穿着尿布让妈妈哺乳。如前文所述,这种情况在印度尤甚。此外,色情漫画(生动而细致地刻画了青少年喜欢的剧集中那些人物的性爱场面)在很大程度上非常受欢迎。[5]或者再仔细想想男性在色情片中最常搜索的女性职业。年龄在18~24岁之间的男性最常搜索的就是保姆。25~64岁之间和65岁及以上的男性同样如此。对每个年龄段的男性来说,老师和啦啦队队员始终排在前四。[6]显然,儿时的生活似乎对成年男性的性幻想产生了巨大的影响。
到目前为止,我还没能运用这所有全新的成人性行为数据来准确地了解性偏好是如何形成的。在接下来的几十年中,我和其他社会科学家将会创造出新的、可验证的成人性行为理论,并用实际数据进行测试。
我已经可以预测到一些基本的主题,这些主题定将成为基于数据的成人性行为理论的一部分。这一理论明显和弗洛伊德所说的那个假设(那个特定的、定义明确的、普遍意义上的童年阶段和性压抑说)不是一回事。根据我对色情网站数据的初步研究,我十分肯定对成年人性行为的最终定论会体现弗洛伊德强调的一些关键主题,童年将发挥重要作用,妈妈也是。
10年前,我们可能还无法以这种方式分析弗洛伊德的理论。当然,在弗洛伊德还活着的80年前肯定更加不可能。那么,让我们来看看为什么这些数据来源有所帮助吧。这项实践有助于我们了解为何大数据会如此强大。
请记住,我们已经说过,单纯的一堆堆数据,其本身并不会自动生成任何见解。数据大小本身被高估了。那么,为什么大数据又如此强大呢?为什么它又可以掀起一场“如何看待自己的革命”呢?我认为,大数据有四大独特功能,对弗洛伊德的这一分析提供了一个很好的例证。
你可能已经注意到,我们关于弗洛伊德的讨论一开始就在严肃地探讨色情内容,而且本书后文中我们还会多次利用色情资料。意外的是,社会学家很少使用色情数据,大多数人更愿意依靠他们职业生涯中建立起来的传统调查数据集。稍微反思一下,广泛使用色情内容(以及随后生成的搜索和观点数据)是我们了解人类性行为的能力最重大的进步……好吧,事实上这可能才是最重要的。数据一直以来都是叔本华、尼采、弗洛伊德和福柯垂涎若渴的东西。在他们的有生之年,这些数据是不存在的。几十年前,这些数据仍不存在。现在,它们出现了。有关各种主题的独特数据来源为我们打开了一扇窗,通往过去仅存在于我们猜测中的领域。提供新型数据是大数据的第一大功能。
色情数据和谷歌搜索数据不仅是全新的,而且是可信的。在前数字时代,人们在人前掩饰着自己羞于启齿的想法。在数字时代,他们在人前仍然将这些想法隐藏起来,但没能瞒过互联网,尤其是谷歌和色情网站这种保护他们隐私的网站。作为一种数字真相的精华,这些网站起着重要的作用——使我们可以发现乱伦的广泛关注度。大数据使我们终于可以看到人们真正想要的和真正在做的,而不是他们嘴上说想要的和想做的。提供可靠的数据是大数据的第二大功能。
因为现在有了如此多的数据,所以即便只有一小群人也可以提取有意义的信息。比如,我们可以把梦到黄瓜的人数与梦到西红柿的人数进行比较。允许我们放大人群子集是大数据的第三大功能。
大数据有一个更令人印象深刻的功能——我在对弗洛伊德的短期研究中没有使用这项功能,但可能在未来的某项研究中会加以运用:它允许我们进行快速且受控制的试验。这样一来,我们不仅可以测试相关性,而且可以测试因果性。这些测试现阶段大多用于商业,但它们定将成为社会科学家的强大工具。允许我们进行许多因果试验是大数据的第四大功能。
现在是解开大数据功能之谜的时候了,让我们一起来探索大数据的重要性和奥秘吧。
[1] 我按照阴茎形状将食物编号,前提是它们的长度得明显大于宽度,而且大体得是圆柱形的。因此,我把黄瓜、玉米、胡萝卜、茄子、南瓜和香蕉算了进来。数据及编号详见我的个人网站sethsd.com。
[2] 数据库可从https://www.microsoft.com/en-us/download/details.aspx?id=52418自行下载。研究人员让亚马逊旗下的机械土耳其人网站(Amazon Mechanical Turk)用户描述图像,分析用户的击键记录,并记录用户改正单词的时间。更多细节详见YukinoBaba and Hisami Suzuki,“How Are Spelling Errors Generated and Corrected? A Study of Corrected and Uncorrected Spelling Errors Using Keystroke Logs,” Proceedings of the Fiftieth Annual Meeting of the Association for Computational Linguistics, 2012。数据、编号和研究的进一步说明参见我的个人网站sethsd.com。
[3] “pindows”是“windows”(窗户)的错误拼写,“fegetables”是“vegetables”(蔬菜)的错误拼写,“aftermons”是“afternoons”(下午)的错误拼写,“refriderator”是“refrigerator”(冰箱)的错误拼写。——编者注
[4] 完整数据(警告:表格)如下
“我想和……做爱”
[5] 例如,在谷歌网站对各类流行动画片的搜索中,“色情”是最常见的词汇,如下。
卡通动画片遇见色情
(有关各类卡通动画片最常见的谷歌搜索词汇)
[6] 根据作者的计算,列出男性搜索色情内容中最常见的女性职业,按男性的年龄划分。
女性在男性色情内容搜索中扮演的角色(按男性的年龄划分)
每个月某个特定周五的早上6点,曼哈顿大部分街道上都空无一人。街边的商铺全部歇业,这些商铺临街的正门都安装着坚不可摧的钢铁防盗门,楼上的公寓漆黑又安静。
另一边,位于曼哈顿下城的全球投资银行高盛集团的楼层却灯火通明,电梯将数千名员工带到办公桌前。早上7点,大部分员工已经就位。
在其他任何一天的这个时间点,你怎么描述曼哈顿下城的昏昏欲睡都不为过。在这个周五的早晨,这里却是能量“爆棚”、兴奋躁动的。因为在这一天,将会对股市产生巨大影响的信息即将送达。
数据发布几分钟后,多家新闻网站就会相继对其进行报道。在得到信息的几秒钟后,高盛集团和其他数百家金融公司就会对这些信息展开激烈的讨论、辩论与解析。现如今金融领域的许多实际行动都发生在毫秒之间。高盛集团和其他金融公司支付了数千万美元的光纤电缆费用,以缩短信息从芝加哥传输到新泽西的时间,然而这个时间仅仅缩短了4毫秒(从17毫秒缩短到13毫秒)。金融公司拥有基于数据读取信息和交易的特殊算法,这一切也全都发生在几毫秒之间。[1]这个重要的信息发布之后,市场瞬息万变。
所以,究竟是什么样的重要数据对高盛集团和其他数百家金融公司如此有价值呢?
月失业率。
这一数据对股票市场影响深远,许多金融机构都竭尽所能缩短获得和分析数据的时间,加快做出反应的速度。然而,这一数据却来自劳工统计局的电话调查,也就是说,信息公布时本身已经滞后三个星期(或者说20亿毫秒)了。
你可能会感到奇怪,更会觉得惊讶,多家公司不惜斥资数百万美元就为让信息流动时间缩短几毫秒,为何美国政府却要花费如此长的时间来计算失业率?
事实上,在艾伦·克鲁格(Alan Krueger)担任奥巴马总统2011年经济顾问委员会主席期间,他日常的主要工作之一就是尽早公布这些关键数字,但他没能成功做到这一点。[2]“要么是劳工统计局没有资源,”他总结说,“要么是他们还活在20世纪。”
显然,政府丝毫没有加快公布数据的步伐,那么有没有办法能以更快的速度得到一个粗略的失业统计数字呢?在这个高科技时代,人们在互联网上的每一次点击几乎都被记录在某个地方——我们真的要等上几周才能知道有多少人失业吗?
前谷歌工程师杰里米·金斯伯格(Jeremy Ginsberg)在工作中受到启发,发现了一种潜在的解决方案。金斯伯格注意到,同失业数据一样,健康数据的公布也被政府拖延了。尽管医生和医院尽早拿到流感数据将会有利于病情的控制,可疾病预防控制中心依然需要一周的时间才能发布流感数据。
金斯伯格怀疑患有流感的人可能会进行与流感相关的搜索。也就是说,他们会向谷歌汇报自身的症状。他认为这些搜索可以对目前的流感患病率进行合理准确的预测。事实上,诸如“流感症状”和“肌肉酸痛”等搜索已被证明是检测流感传播速度的重要指标。[3][4]
与此同时,谷歌的工程师创建了一项服务——谷歌相关(Google Correlate),为外部研究人员提供了针对众多领域(不仅仅是卫生领域)展开试验所需的多种同类型分析手段。研究人员可以随时查看他们正在跟踪的任何数据集,并查看谷歌搜索与该数据集相关度最高的内容。
例如,利用谷歌相关,我和谷歌首席经济学家哈尔·瓦里安(Hal Varian)两个人就能告诉人们哪些搜索和房价最密切相关。[5]当房价上涨时,美国人倾向于搜索“80/20抵押贷款”“新房建设商”“升值率”等短语;当房价下跌时,美国人往往会搜索“空卖过程”“溺水屋”“抵押贷款债务减免的税收豁免”等短语。
谷歌搜索能否像房价和流感的晴雨表一样,成为失业率调查的试纸呢?仅仅依靠谷歌搜索,我们能否得知有多少人失业,能否在政府核对出调查结果之前统计出可靠数据呢?
有一天,我将2004—2011年的美国失业率输入谷歌相关中。
你认为在那段时间里数万亿次的谷歌搜索中,与失业率最为紧密相连的搜索是什么呢?你可能会认为是“失业办公室”或类似的内容吧。这类搜索频度很高,但不是最高的。那么,“新工作”呢?也很高,但也不是最高的。
在我搜索的过程中,出现频率最高的词不是这些词,而是“骚货”!没错,最常见的搜索就是色情网站!这个结果乍看起来也许奇怪,但恐怕失业人士确实花了大把时间在这类网站上。很多人只能待在家里,孤独又无聊。另一类高度相关的搜索(属于家长指导级别)是“蜘蛛纸牌”。这样一来各位就不会感到惊讶了,这群失业人士手中确实有大把大把的时间。
我并非想通过这一分析表明追踪“骚货”或“蜘蛛纸牌”这类词条是预测失业率的最佳途径。因为失业人员的具体消遣可能随着时间的推移而变化(比如,另一个色情网站同样在最高相关度的搜索中),并且这些高频词本身并不能提起大多数失业人士对它们的兴趣。我发现,与消遣相关的综合性搜索可以追踪失业率,并能成为预测失业率的完美模板的一部分。
这个例子说明了大数据的第一个功能——提供新型数据。通常,大数据的价值不在于它的大小,而在于它可以为你的研究提供新的信息,提供过去从未有人搜集到的信息。
在谷歌出现之前,有些休闲活动的信息是可以获取的,例如电影票的销售情况。这些信息可能会提供一些线索,告诉我们人们有多少闲暇时间。现在有这样一个机会去了解有多少人在玩纸牌游戏或看色情片,这个机会可是前所未有的,更是影响巨大的。在这种情况下,这些数据可能有助于我们(至少在政府学会尽快展开和梳理一个调查之前)更快地了解经济状况。
美国加利福尼亚州山景城谷歌园区内的生活与高盛集团曼哈顿总部截然不同。上午9点,谷歌的办公室内空无一人。如果有工作人员在,那他们可能正在吃免费早餐——香蕉蓝莓煎饼、炒蛋白、纯黄瓜汁。有些员工可能不在园区内:他们可能在博尔德或拉斯维加斯参加外场会议,或在去塔霍湖公费滑雪旅行的路上。到了午餐时间,沙坑排球场和草地足球场上满满的都是人。在谷歌的墨西哥餐厅,我吃到了最美味的卷饼。
这个全球最大、最具竞争力的科技公司为何看起来如此轻松舒适和慷慨大方?谷歌利用大数据以一种其他公司前所未有的方式打造了一个自动化的资金流。谷歌公司在本书中起着至关重要的作用,因为谷歌搜索是迄今为止大数据的主要来源,但重要的是要记住,谷歌的成功是建立在对一种新型数据的搜集之上的。
如果你的年纪够大,曾在20世纪使用过互联网,那么你可能还记得当时的各种搜索引擎,如MetaCrawler、Lycos、AltaVista等。你可能还记得,这些搜索引擎通常不是很可靠。有时,如果你运气足够好,它们可以找到你想要的东西,但一般情况下是找不到的。如果你于20世纪90年代后期在最受欢迎的搜索引擎中输入“比尔·克林顿”,排位最高的搜索结果中包括一个随机网站,这个网站称“比尔·克林顿就是个人渣”;搜索结果中可能还会有一个嘲讽克林顿的冷笑话网站。这些显然都不是和美国当时的总统最相关的信息。
1998年,谷歌出现了,其搜索结果无疑比所有竞争对手都更准确。1998年,如果你在谷歌上搜索“比尔·克林顿”,你将获得他的个人网站、白宫电子邮件地址和互联网上关于他个人最详尽的传记。[6]谷歌就像在变魔术一样。
谷歌创始人谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)究竟有哪些不凡之举呢?
其他搜索引擎为其用户定位到他们搜索的词出现频率最高的网页。如果你正在查找有关比尔·克林顿的信息,那么这些搜索引擎会在整个互联网上找到提及比尔·克林顿次数最多的网页。这个排名系统并不完善,原因有很多,其中一个就是很容易被钻空子。比如,一个笑话网站在某个不起眼的角落插入一连串“比尔·克林顿”,其关联度就会比白宫的官方网站高得多。(1998年,如果你在一个出现在谷歌之前的受众较广的搜索引擎上搜索“汽车”,就会被彻底淹没在色情网站中。这些色情网站经常在白色背景上用白字输入“汽车”这个词来欺骗搜索引擎。[7]于是,它们从一些本欲购买汽车但被色情内容分散了注意力的人身上获得不少额外点击量。——作者注)
布林和佩奇的做法是找到一种方法来记录远比简单地计算单词出现次数更有价值的新型信息。网站在分辨搜索主题时通常会链接到它们认为最有助于理解该主题的网站。例如,提到比尔·克林顿时,《纽约时报》可能会将点击他名字的读者链接到白宫的官方网站。
创建这些链接的每个网站在某种程度上都会给出一个它认为和比尔·克林顿最相关的信息。布林和佩奇可以将所有这些信息整合到每个主题上,这样就可以一次性搜集到来自《纽约时报》、数百万个Listservs(邮件用户清单服务)、数百位博主和互联网上其他人的判断。[8]如果很多人认为对“比尔·克林顿”这一搜索而言,最重要的链接是他的官方网站,那么这个网站很可能就是大多数搜索“比尔·克林顿”的人都想浏览的。
这类链接是其他搜索引擎甚至都没有考虑过的数据,它们对既定主题最有用的信息的预测能力是惊人的。有一点需要搞清楚,谷歌并非仅靠搜集更多的数据称霸搜索引擎界,而是凭借找到更精准的数据类型做到了这一点。谷歌在推出后不到两年的时间内,通过其链接分析功能,成为互联网上最受欢迎的搜索引擎。今天,布林和佩奇的总资产已超过600亿美元。
与谷歌一样,所有人都试图使用数据来了解世界。大数据革命并不在于数据的量,而在于数据的质。
互联网不是唯一一处可以搜集新数据的地方,并且在网络上获取优质数据也可能会带来破坏性后果。本书主要讨论的是网络上的数据如何帮助我们更好地了解人类。不过,下一节却与网络数据毫无关系,事实上是与人类毫无关系,但这部分内容有助于阐明本章的要点:新的非常规数据的巨大价值。其中传达的原理也有助于我们理解这场以数字为根基的数据革命。
2013年夏,一匹红褐色的马“坐”在纽约州北部的一个小谷仓里,它比一般的马体型大些,有着黑色的鬃毛。它是位于美国纽约州东部疗养胜地萨拉托加斯普林斯的法西–蒂普顿公司(Fasig-Tipton)的8月精选周岁马拍卖会上要被拍卖的152匹马中的一匹,也是当年要被拍卖的1万匹周岁马之一。
有钱人砸大笔的钱在某匹赛马身上时,都希望能得到为这匹马起名的殊荣。因此,像大多数上了拍卖会的马一样,这匹红褐色的马还没有名字,人们暂且用它的谷仓号85号来指代它。
85号想要在这次拍卖会上脱颖而出几乎毫无胜算。它的血统还不错,但还不够好。它的雄性亲畜(父亲)“尼罗河先锋”(Pioneer of the Nile)曾经是一匹顶级赛马,但“尼罗河先锋”的其他孩子此前并没有多少赛马佳绩。85号的外观也有一些问题。例如,它的脚踝处有一道划痕,一些买家会担心它可能受过伤。
目前85号的所有者是埃及啤酒大亨艾哈迈德·扎耶特(Ahmed Zayat),他来到纽约州北部想要卖掉这匹马,同时再买几匹马。
和几乎所有的马主一样,扎耶特聘请了一个专家团队来帮助他选马,但他聘请的专家与其他马主聘请的专家略有不同。在这样的活动中,你看到的典型选马专家都是中年男子,大多来自肯塔基或佛罗里达的乡下,文化水平不高,但有从事赛马行业的家庭背景。然而,扎耶特聘请的专家来自一家名为EQB的小公司。EQB的负责人杰夫·塞德(Jeff Seder)可不是一个老派赛马界人士,而是一个出生于费城的怪人,他毕业于哈佛大学,有一大堆学历证书。
扎耶特曾经与EQB合作过,所以对其流程十分熟悉。塞德的团队需要几天时间对数匹马进行评估,然后会推荐5匹左右给扎耶特来替换85号。
可是这次和往常不太一样。塞德的团队向扎耶特反馈,他们无法满足他的要求。在当天出售的其余151匹马中,他们无法为他提供任何推荐。相反,他们提出了一个意想不到的强烈请求:扎耶特绝不能卖掉85号。EQB称,这匹马不仅是该次拍卖中最棒的马,而且是全年最好的马,甚至可能是十年难遇的好马。团队恳求他:“就算卖掉你的房子,也别卖这匹马。”[9]
第二天,一个自称因卡尔多·布拉德斯托克(Incardo Bloodstock)的人花30万美元悄然无息地买走了85号。后来人们才知道,这个布拉德斯托克就是艾哈迈德·扎耶特当时的化名。应塞德的请求,扎耶特买回了自己的马,这几乎是史无前例的事情了。(拍卖规则使扎耶特无法轻易买回自己的马,因此只能进行匿名交易。)拍卖中,有62匹马比85号价高,其中有两匹卖出了超过100万美元的高价。
三个月后,扎耶特终于为85号选定了名字:美国法老王。18个月后,在纽约市郊区一个气温75华氏度(约24摄氏度)的周六晚上,美国法老王成为30年来首个三冠王。
杰夫·塞德在85号身上看到了哪些别人看不到的东西?这个哈佛大学毕业生为何如此善于相马呢?
在佛罗里达州奥卡拉一个6月炙热的午后,我第一次见到了时年64岁的塞德,当时距离美国法老王赢得三连冠已有一年多了。[10]这场赛事为期一周,是专为两周岁马举办的一场展示,以拍卖会收尾,与扎耶特2013年买回自己的马的那场赛事几无差别。
塞德有着梅尔·布鲁克斯(Mel Brooks)般低沉的声音,头发浓密,走起路来一蹦一跳的,辨识度极高。他身着卡其色的背带裤和黑色衬衫,衬衫上印着公司的标识,耳朵上戴着助听器。
在接下来的三天里,他向我讲述了他的人生故事,以及他是如何越来越善于相马的。他走了不少弯路。在本科以优等生成绩毕业于哈佛大学后,塞德在哈佛大学继续攻读法学学位和商科学位。26岁时,他曾在纽约市花旗集团(Citigroup)担任分析师,但他并不快乐,而且疲惫不堪。有一天,他坐在列克星敦大街公司新办公室的中庭,仔细地端详一幅描绘乡间旷野的壁画。这幅画让他想起了自己对乡村和马的热爱。回到家,看着镜子里那个西装革履的自己,他意识到自己注定不会成为一名银行家,也无法在纽约生活。第二天早上,他便辞去了工作。
塞德搬到了宾夕法尼亚的乡下,在全身心投入自己相马的爱好之前,他曾尝试过纺织和运动医学等多领域的工作。赛马的数字很不精准。在奥卡拉拍卖会上展出的1 000匹两周岁马中,只有最受全美瞩目的那一匹(也许是5匹)最终会赢得比赛,拿到丰厚的奖金。其余的马又会如何呢?大约1/3速度太慢;1/3会受伤——绝大多数是因为四肢无力承受全速奔跑时的巨大压力[11](每年都有数百匹赛马在美国的赛道上死亡[12],多半是因为腿骨断裂[13]);剩下的1/3可能患有人们所说的巴特比综合征(Bartleby syndrome)。巴特比是赫尔曼·梅尔维尔(Herman Melville)的杰出短篇小说中描写的代笔者,他不再工作,并以“我宁可不”来回应其雇主所提出的所有要求。许多赛马在竞技生涯的初期清楚地意识到如果它们不愿意就可以不跑。它们一开始可能会跑得很快,但是在某些时候,它们很容易就放慢速度或直接停下来。为什么要尽可能快地围着这个椭圆形跑,特别是还要忍受马蹄和跗关节的剧烈疼痛?于是它们选择“我宁可不”。(我知道巴特比综合征“患者”有一个弱点,不管是马还是人都有的弱点。)
有如此多的不利因素,马主如何才能选到一匹能赚大钱的马呢?过去,人们认为预测一匹马能否成功的最好办法是分析它的血统。作为一名相马专家,这意味着在任何人想要了解任何一匹马时,你得快速说出它父亲、母亲、祖父、祖母及兄弟姐妹的所有信息。例如,如果一匹大体型马的母方血系中有很多大体型马,代理人就会说“它体型如此庞大是有据可循的”。
但是,有一个问题。血统固然重要,却仍然只能作为赛马成功的很小一部分原因。想想那些“年度赛马”称号(赛马界最受瞩目的年度大奖)获得者的兄弟姐妹就明白了。这些马具有最佳血统——与世界上最好的马匹有着相同的家族史,但其中3/4以上都没有赢得大型比赛。[14]数据告诉我们,预测赛马成功的传统方式还有很大的进步空间。
实际上,血统预测性不强并不奇怪。想想人类吧。想象一下,一个NBA球队的老板根据球队成员的血统,在球员们10岁的时候就买下这支他未来的球队。他可能会聘请一名代理人来测试“魔术师”约翰逊的儿子埃尔文·约翰逊三世。[15]这名代理人可能会说:“目前看来,他的体型十分不错。遗传自约翰逊,有这样的体型是一定的。他应该会有远大的志向、无私的精神,体型好,速度快。他应该性格外向,为人友善,步伐矫健,风度翩翩。值得下这个注。”可惜的是,14年后,这位老板只会得到一个身高6英尺2英寸(约188厘米,对职业篮球运动员来说并不高)的《E!》栏目时尚博主。埃尔文·约翰逊三世或许在设计球服方面可以提供很多建议,但在球场上可帮不上什么忙。
除了这位时尚博主外,NBA球队老板可能还会像许多马主选马一样,忙不迭地签下迈克尔·乔丹的两个儿子杰弗里·乔丹和马库斯·乔丹,而他们后来不过是表现平平的大学生球员而已。倒霉的要数克利夫兰骑士队了,他们的领军人物勒布朗·詹姆斯的母亲身高只有5英尺5英寸(约165厘米)啊![16]或者假定一个国家根据家族血统甄选领导人,那我们很可能会受小布什这样的领导人领导了。(不好意思,实在没忍住!)
除了血统外,赛马代理人还会考虑其他信息。例如,他们会分析两周岁马的步态,并以眼观马。在奥卡拉,我花了好几个小时和各种代理人聊天,通过长时间的交谈,我确信这些人实际的关注点完全没有共性可言。
除了这些收拾不住的矛盾和不确定性外,有些赛马买家好像钱多得没处花一样,留给我们的就是一个效率超低的市场。10年前,153号两周岁,跑得比任何一匹马都快,在大多数代理人眼里,它十分漂亮,而且有一个非常好的血统——它是有史以来最好的两匹赛马“北方舞蹈家”(Northern Dancer)和“秘书处”(Secretariat)的后裔。一位爱尔兰亿万富翁和一位迪拜酋长都想买下这匹马。双方陷入一场竞标战,而后很快就演变成一场脸面之战。由于数百名惊愕的赛马界人士在一旁观战,双方给出的标价越来越高,最后这匹两周岁马的售价高达1 600万美元,这是迄今为止最高的竞马价格。153号被命名为“绿色猴子”(The Green Monkey),后来只跑了三场比赛,挣了1万美元,就退役了。[17]
塞德对传统的相马方式毫无兴趣,他只对数据感兴趣。他计划要测量赛马的各种属性,看看其中哪些与它们的表现相关。值得注意的是,塞德在万维网面世5年之前就制订了他的计划,但他的策略在很大程度上是基于数据科学的。他的经验对任何使用大数据的人而言都十分受用。
多年来,塞德的追求给他本人带来的只有挫败感。他曾经测量过马的鼻孔大小,构建了世界上第一个(也是最大的)赛马鼻孔大小及其最终收益的数据集,结果发现鼻孔的大小并不能预测赛马能否成功。他曾经给马做心电图,检查它们的心脏;他曾经砍下死马的四肢,测量它们快速抽动的肌肉体积;他曾经在谷仓外面握着一把铁锹测定马粪的大小;他也曾经坚持认为在比赛前减掉过多的体重,赛马的速度会变慢。然而,所有这些与赛马的成功并无半点关系。
后来,在12年前,他取得了第一次重大突破。彼时塞德决定测量马匹内脏的大小。凭借当时的技术根本不可能完成这项工作,于是他自己组装了一部便携式超声波仪器。结果令人振奋。他发现,心脏的大小,尤其是左心室的大小,是赛马成功的重要预测指标,也是最重要的变量。另一个重要的器官是脾脏:脾小的马几乎一分钱都赚不了。
塞德还有更多的发现。他将数千段赛马比赛的视频资料数字化,发现某些步法确实与比赛成功相关。他还发现,一些两周岁马在开跑0.125英里(约200米)后会发出呼哧呼哧的喘息声。这样的马有时会卖到100万美元,但是塞德的数据告诉他,这样的马是不会赢得比赛的。于是他派了一名助理坐在终点线附近,排除掉那些开跑不久就喘息的马。
在奥卡拉拍卖会上,1 000匹马中大概只有10匹能通过塞德的所有测试。他完全忽略血统,除非血统会影响马匹的售价。“血统告诉我们,一匹马可能有那么一丝机会是一匹好马,”他说,“但是如果我能看出它是一匹好马,又何必在意它的出身呢?”
一天晚上,在奥卡拉,塞德邀请我到他入住的希尔顿酒店房间去。在房间里,他向我讲述了他的童年、家庭和事业,给我看了他妻子、女儿和儿子的照片。他告诉我在费城念中学时,他是学校里仅有的三个犹太学生之一。他入学的时候身高4英尺10英寸(约146厘米)(念大学时长到了5英尺9英寸)。他告诉我他最喜欢的马叫宾奇·皮兹万斯基。塞德买下了这匹马,并以一名同性恋骑手的名字为它命名。他觉得即使宾奇不是最成功的马,也一定是每场比赛都全力以赴的马。
最后,塞德向我展示了一份文件,其中包含他当年记录的85号的所有数据,这份文件成就了他职业生涯中最成功的预测。他这是在透露自己的秘密吗?或许是吧,但他说他不在乎。对他来说,与保守自己的秘密相比,证明自己是正确的才更重要。他想向全世界证明,这20年来,为了了解马,砍马腿、铲马粪、装配超声波仪器等都是值得的。
表3–1是85号的一些数据。
表3–1 一周岁马85号(后称“美国法老王”)的百分位数
很显然,这就是塞德和他的团队对85号如此痴迷的原因,它的左心室大小的百分位数竟然有99.61!
不仅如此,这匹赛马的其他所有重要器官,包括心脏和脾脏在内,也都大得异乎寻常。塞德发现,一般来说,赛马的左心室越大,在比赛中成绩就越好,但是,如果左心室如此之大,其他器官却很小,则可能是患有疾病的征兆。美国法老王所有关键器官的大小都高于平均水平,左心室更是超大。数据表示,85号是十万里挑一甚至百万里挑一的好马!
数据科学家可以从塞德的项目中学到什么呢?
首先,或许也是最重要的一点,如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域。被塞德击败的那些沉迷于血统的赛马代理人为该领域留下了很大的改进空间。被谷歌打败的那些痴迷于数据的搜索引擎也为该领域留下了进步空间。
谷歌试图用搜索数据预测流感的做法有一个弱点,即只要使用上周的数据和简单的季节性调整,就已经能够非常准确地预测流感了,而目前人们对应该添加多少搜索数据到这个简单又强大的模型中仍然争论不休。[18]在我看来,谷歌搜索在测量健康状况的领域取得突破的可能性更大,因为该领域现有的数据较少,长远来看,类似谷歌性病(Google STD)这样的内容或许比谷歌流感更有价值。
其次,试图做预测时,不必太担心模型的工作原理。塞德无法向我透彻地解释为什么左心室大小对预测马匹成功如此重要,也无法准确地说明脾脏的价值。也许有一天,马心脏病学家和血液学家将会解开这些谜团,但现在这个问题无关紧要。塞德在做的是预测工作,而不是解释工作。在预测工作中,你只需要知道什么东西有用,无须知道为什么。
例如,沃尔玛通过其所有店铺的销售数据了解什么产品应该上架。2004年,在飓风“弗朗西斯”袭击美国东南部之前,沃尔玛准确地猜测到,当飓风即将来临时,人们的购物习惯可能会改变。他们通过分析以前飓风来袭时的销售数据了解人们可能想要购买什么。答案是什么?草莓馅饼。[19]在飓风前几天,这种产品的销售速度比正常情况下快7倍。
根据他们的分析,沃尔玛满载草莓馅饼的卡车在95号州际公路上驶向飓风途经的地区。事实证明,这些馅饼确实卖得不错。
为什么是馅饼?可能是因为它们不需要重新冷藏或烹饪吧。为什么是草莓味?没有头绪,但是当飓风袭来时,显然人们会购买草莓馅饼。所以,在飓风来临的前几天,沃尔玛会照例在货架上摆上一盒又一盒的草莓馅饼。这种联系的原因并不重要,重要的是联系本身。也许有一天,食品科学家会弄清楚飓风和以草莓酱为馅料的糕点之间的关系,但是,在等待解释的期间,沃尔玛仍然需要在飓风来临前在货架上摆上草莓馅饼,并为晴好的天气储存脆米棒。
普林斯顿大学经济学家奥利·阿申费尔特(Orley Ashenfelter)的故事也明确阐释了同样的道理。塞德之于马,好比阿申费尔特之于红酒。
十多年前,阿申费尔特十分沮丧。此前他一直从法国波尔多地区购买大量红葡萄酒。有时候这种酒味道很棒,配得上它的高价,但更多的时候不尽如人意。
阿申费尔特想知道,为什么他花同样的价钱买来的酒,味道却相去甚远?
有一天,一位记者朋友,同时也是一名葡萄酒鉴赏家告诉阿申费尔特一个小诀窍,确实有一种方法可以确定一瓶酒的好坏。这位朋友告诉他,关键要看酿酒所用的葡萄生长季节的天气。
阿申费尔特对此产生了浓厚的兴趣。他试图弄清楚这一说法是否属实,这样一来他便可以每次都买到好葡萄酒了。他下载了波尔多地区30年来的天气数据,还收集了葡萄酒的拍卖价格。在葡萄酒初售多年后的拍卖会上,拍卖行会告诉你这瓶葡萄酒的来龙去脉。
结果十分惊人。葡萄酒的质量好坏在很大程度上可以简单地通过葡萄生长季节的天气解释。
事实上,葡萄酒的质量可以分解为一个简单的公式,我们可以称之为葡萄栽培第一定律:
价格=12.145 + 0.001 17×冬季降水量+ 0.061 4×平均生长季节气温– 0.003 86×收获季节降水量
那么,为什么波尔多地区的葡萄酒质量是这样的情况呢?葡萄栽培第一定律的原理是什么呢?阿申费尔特对葡萄酒公式做过一些解释——热量和早期的灌溉是葡萄正常成熟的必要条件。
他的这一预测公式的确切细节远远超出了所有理论的范畴,即使是这一领域的专家也不可能完全理解。
为什么1厘米的冬季降水量平均可以为一瓶成品红葡萄酒增加0.1美分的价格呢?为什么不是0.2美分?为什么不是0.05美分?没有人可以回答这些问题,但如果这里的冬天有额外的1 000厘米降雨,你应该愿意为一瓶葡萄酒多付1美元。
的确,尽管阿申费尔特不知道为什么他的回归运算会那样运行,但可以用它来购买葡萄酒。据他说这个公式“非常好用”[20],他喝的葡萄酒质量得到了明显的提高。
如果你的目标是预测未来(什么样的葡萄酒好喝,什么样的产品会大卖,什么样的马跑得快),不必太担心你的模型为什么会那样运行,只要得到的数字是正确的就可以了。这是杰夫·塞德那个关于马的故事的第二个启示。
从塞德成功预测潜在的三冠王的经验中得到的最后一个启示是,在确定什么是数据时,你必须抱有开放而又灵活的心态。在塞德之前,传统的赛马代理人并非不知道数据。他们也会仔细检查比赛次数和血统图表。塞德的天才之处在于,他会寻找他人从未关注过的数据,还会考量非传统的数据来源。对一位数据科学家来说,一个全新的独特视角是一定会带来回报的。
2004年的一天,两位有着媒体专业背景的年轻经济学家(时为哈佛大学在读博士生)正在阅读马萨诸塞州新近关于同性婚姻合法化的一项法庭判决。
马特·根茨科(Matt Gentzkow)和杰西·夏皮罗(Jesse Shapiro)这两位经济学家注意到一件有趣的事:两家报纸采用完全不同的措辞来报道同一新闻事件。以保守著称的《华盛顿时报》(Washington Times)给新闻报道加了这样的标题:同性恋者在马萨诸塞州“结婚”。著名的自由派报纸《华盛顿邮报》(Washington Post)则报道称“同性伴侣”大获全胜。
不同的新闻机构会偏向不同的方向,不同的报纸在报道同一新闻时也会有不同的侧重点,这都不足为奇。事实上,多年来根茨科和夏皮罗都在思考他们能否运用自己的经济学知识来帮助自己理解媒体偏好。为什么有些新闻机构采取一种更加自由的观点,而其他新闻机构却采取一种更加保守的观点呢?
这两位确实不知道该如何解决这个问题,他们不知道如何才能系统而客观地衡量媒体的主观性。
关于同性婚姻的报道,让根茨科和夏皮罗觉得有趣的不是新闻机构对其报道的不同,而是如何不同——其原因可归结为选词的巨大差异。2004年,《华盛顿时报》使用了“同性恋者”一词,还带着轻蔑老套的口吻用它来描述同性恋者;而《华盛顿邮报》使用的则是“同性伴侣”一词,强调同性爱情只是爱情的另一种形式。
两位学者想知道语言到底是不是理解偏好的关键点。自由派和保守派一直都使用不同的短语吗?报纸文章使用的词语能转换成数据吗?这能揭示美国报纸的什么内情?我们能推断出一家报纸是自由派还是保守派吗?我们能找到其中的原因吗?2004年,这些并非悬而未决的问题。美国报纸上数十亿的单词早已不用再囿于新闻报纸和缩微胶卷的形式。某些网站现在能记录美国几乎每家报纸的每个报道里的每个单词。根茨科和夏皮罗可以把这些网站研究透彻,从而快速测试出文风能够衡量报纸偏好的程度。而且,这项工作也可以帮助他们加深人们对新媒体运作方式的理解。
在论述他们的发现之前,让我们暂且放下根茨科和夏皮罗的故事,放下他们想要量化报纸文风的目的,先来谈谈各领域的学者如何使用这种新型数据(文字)来更好地了解人性。
当然,语言一直都是社会科学家感兴趣的话题。然而,过去研究语言通常需要精读文本,将大量文本转化成数据在那时是行不通的。现在,有了电脑和数字化技术,从大量文件中列出词语成了一件容易的事,语言也因此成了大数据分析的目标。谷歌网站使用的链接由文字组成,我研究的谷歌搜索也是如此。文字在本书中常常起到重要的作用,但是语言对大数据革命极其重要,它值得拥有属于自己的一席之地。事实上,现在语言使用得太多了,因而有了“文本数据”这一专门研究领域。
这一领域的一项重大进步就是词频统计器谷歌Ngrams的出现。几年前,埃雷兹·艾登(Erez Aiden)和让–巴蒂斯特·米歇尔(Jean-Baptiste Michel)这两位年轻的生物学家为了探索关于某些词语用法的传播途径,吩咐他们的研究助手在多篇布满灰尘的古老文本里逐个数单词。一天,艾登和米歇尔听说谷歌公司有一个新项目,要将世界上大部分的书籍数字化,这两位生物学家不约而同地立即断定,文字数字化将成为了解语言历史的更加简单的途径。
艾登告诉《探索》(Discover)杂志:“我们意识到自己的研究方法过于陈旧。很显然,我们无法与数据化这一强大的力量抗衡。”因此,他们决定与谷歌公司合作。有了谷歌搜索引擎的帮助,他们创建了一项服务,可以在数以万计的数字化书籍中搜索特定词语或短语。这项服务会告诉研究人员某个词语或短语在1800—2010年中每一年出现的频率。
那么,从词语或短语在不同年份出现在书中的频率,我们能了解到什么呢?我们可以了解到香肠的受欢迎程度在缓慢提升,而比萨的受欢迎程度在最近几年出现了快速增长(见图3–1)。
图3–1 香肠和比萨在1800—2010年的受欢迎程度
除此之外,通过搜索,我们还可以获得很多重要得多的信息,例如,谷歌Ngrams可以告诉我们民族认同感是如何形成的。艾登和米歇尔的力作《可视化未来》(Uncharted)为我们提供了一个有趣的例子。
先问一个简短的问题:你认为现在的美国是一个统一的国家还是一个分裂的国家?如果像大多数人一样,你就会因高度的政治极化现象而说现在的美国是一个分裂的国家,你甚至可能会说美国这个国家从古至今一直是分裂的。毕竟这个国家现在被打上了有色标码:红色州拥护共和党,蓝色州支持民主党。在《可视化未来》一书中,艾登和米歇尔发现了一个有趣的数据点,揭示了美国历史上的分裂状况有多么严重。这个数据点就是人们谈论国家时所用的语言。
请注意我在前段文字中说到美国分裂状况时使用的词语。我曾写过这么一句话:“现在的美国是一个分裂的国家。”我把“美国”视作“一个”国家,这是理所当然的,因为这既符合语法又符合使用标准。我确信你之前肯定没注意到这一点。
然而,美国人并非一直这样说。建国初期,当时的美国人是用“美利坚合众国”(United States)一词来表达“合众国”这一复数概念的。例如,约翰·亚当斯(John Adams)在1799年的《国情咨文》演讲中就曾提到“美利坚合众国与英国陛下签订的诸项条约”。如果本书写于1800年,我可能会说:“现在的美国是分裂的国家。”这一语言使用上的细微差别对历史学家来说一直都具有极强的吸引力,因为这表明曾经有那么一刻美国不再将自己视为各州的集合体,而是开始作为一个国家出现。
那么,这是什么时候发生的事呢?《可视化未来》一书告诉我们,历史学家也不确定是什么时候,因为没有系统的方法能够测试这一时间点,但是很多人一直猜测转变的原因是美国内战,即南北战争。事实上,美国历史学会前主席、普利策奖得主詹姆斯·麦克弗森(James McPherson)曾直言不讳地说:“南北战争见证了美国从各州集合体到单一国家的转变。”
但事实证明麦克弗森错了。谷歌Ngrams向艾登和米歇尔提供了一种系统的方法来检验这一点。他们可以查看美国书籍在历史上每一年“美利坚合众国”(The United States are...)与“美国”(The United States is...)使用频率的对比。在南北战争之前,两种说法的转换相对平缓;在南北战争完全结束后,这种转换才开始急速加快(见图3–2)。
图3–2 “美利坚合众国”与“美国”在美国书籍中的使用频率
南北战争结束15年后,“美利坚合众国”的使用量仍然要比“美国”多,这也表明当时美国在语言方面仍然是分裂的,因为军事胜利要比思想转变发生得更快。
一个国家的统一就先说到这儿。那么,男性和女性如何统一呢?关于这一点,文字也能发挥作用。
例如,通过男性和女性首次约会时说话的方式,我们就能预测他们会不会还有第二次约会。
这项研究是由斯坦福大学和西北大学跨专业团队的科学家发起的,他们分别是丹尼尔·麦克法兰(Daniel McFarland)、丹·朱夫斯凯(Dan Jurafsky)和克雷格·罗林斯(Craig Rawlings)。他们研究了数百位异性速配约会者,并试图查明什么因素可以预测男女双方对彼此有感觉并想有第二次约会。[21]
首先,他们使用了传统数据,询问了约会者双方的身高、体重和爱好,并且测试了这些因素是如何与同某人擦出浪漫火花联系起来的。一般来说,女性更喜欢高大并且愿意分享爱好的男性,男性则更喜欢苗条并且愿意分享爱好的女性。这没什么新鲜的。
其次,科学家也搜集了一种新型数据。他们让约会者随身带上录音机,随后对约会的录音做了数字化处理,这样就能够记录男女双方使用的词汇、笑声和说话的语气了。他们据此可以测试男女双方如何表示对对方有感觉,也可以测试约会双方是如何赢得对方好感的。
那么,这些语言数据告诉了我们什么呢?它们告诉我们男性(女性)如何表达自己对女性(男性)的好感。男性有一种表现方式非常明显:他会对女性讲的笑话做出相应的回馈。另一种方式则隐晦一些:说话时,他会把声音大小控制在一定范围内。一项研究表明,女性常会把男性单调的声音视为阳刚之气,这也暗示如果男性对一名女性感兴趣,他们可能会下意识地夸大自身的阳刚之气。
科学家发现女性会通过改变声音大小、讲话更加温柔和采取更简短的轮流谈话表达自己对男性的兴趣。同样,基于女性使用的特定词汇,我们也有可以展现女性兴趣的线索。当女人使用诸如“大概”或“我猜”这类模棱两可的表达时,就表明她们不大可能喜欢正在约会的男人。
男同胞们,如果一名女性就某个话题不做正面回答(如果她“有几分”喜欢她的饮料或“有点儿”冷或“可能”想另点开胃菜),你就可以肯定她“有几分”“有点儿”“可能”不喜欢你了。
当女人谈论她自己时,她才有可能对你感兴趣。结果表明,对一个想找女朋友的男人来说,从一个女人口中能听到的最漂亮的词就是“我”了,因为这是她感到舒服的一个标志。如果一个女人使用具有凸显自我性质的表达时,比如“你知道吗”和“我的意思是”这样的说法,就说明她可能喜欢正与她约会的男人。为什么呢?因为科学家发现这些表达能够吸引听者的注意,这些字眼友好、温暖,而且说明一个人正希望与对方产生联系,你懂我的意思,对吗?
那么,男女双方又该如何交流才能让约会对象对自己感兴趣呢?数据告诉我们,男性可以采用多种说话方式来增加女性喜欢自己的概率。女性喜欢听从她们意见的男性。可以想见,如果一名男性能对一名女性讲的笑话做出相应的反应,并且没有把话题转到自己想聊的事上,而是一直谈论她发起的话题,那么这名女性就很有可能对男方产生好感。(我正在研究的一个理论是:大数据证实了已故的伦纳德·科恩(Leonard Cohen)所说的一切。例如,伦纳德·科恩曾为他的侄子追求女性提出如下建议:“仔细听女人说话,然后继续听下去。当你觉得自己快听不下去的时候,再忍着听一会儿。”[22]这个建议似乎和科学家的发现大致相似。——作者注)女性也喜欢表达支持和有同情心的男性。如果一名男性说“那太棒了”或“那简直太酷了”,那么他更有可能获得女性的青睐。同样,如果他使用“那肯定很难”或“你一定很伤心”这样的表达,也会有相同的效果。
对女性来说,这里会有一些不好的消息,因为数据好像证实了有关男性的一个令人不快的事实。在男性如何回应女性方面,对话发挥的作用非常小,女性的外貌才是预测男性是否会对其产生好感的最重要因素。即使是这样,仍然有一个词,女性可以用来略微增加男人喜欢她的概率,而这个词我们早已讨论过了,它就是“我”。男人更可能喜欢总是谈及自己的女人。正如前文所述,如果女性在一次约会中多次谈及自己,这说明她也对约会的男性有好感。因此,如果首次约会时男女双方谈了很多关于女方的事,那肯定是一个超棒的征兆。女性传递出感到舒适的信号,并且可能会对这位男性没有独占整个对话表示欣赏,而男性则喜欢不拘谨的女性。如此一来,第二次约会就八九不离十了。
最后,约会记录透露了一个约会的大忌:问号。如果约会中有人不断提问,那么男女双方都不太可能对对方产生好感。这似乎是有违直觉的,你或许认为提问就代表着感兴趣,但在第一次约会时不是这样的。第一次约会时,大多数问题都是因为无话可说。“你有哪些爱好啊?”“你有几个兄弟姐妹?”这些问题是对话停滞时人们才会说的话。完美的初次约会可能在行将结束时有一个简单的提问:“你愿意再次和我约会吗?”如果这是约会中唯一的提问,那么答案很可能就是“我愿意”。
男性和女性不仅在追求异性时说话方式不同,而且他们的说话方式总体来看就是不同的。
一个心理学家团队分析了脸谱网帖子中使用的数十万个单词,检测了男女双方对于每个单词的使用频率。[23]由此他们就可以断定,在英语语言中哪些是最男性化的单词,哪些又是最女性化的单词。
唉!这些用词偏好其实很多时候是很明显的。例如,与男性相比,女性谈论“购物”和“我的发型”的频率更高,男性说起“足球”和“游戏机”的频率则要比女性更高。也许根本就不需要一个研究大数据的心理学家团队来告诉你这些。
然而,有些发现更有趣。可能因为男性不善于未雨绸缪,所以女性比男性更常使用“明天”一词。为单词“so”添加字母“o”是最具女性化的语言特点之一。女人使用的最不符合语法习惯的单词有“soo”“sooo”“soooo”“sooooo”“soooooo”。
可能是因为儿时总和时不时就爆粗口的女性待在一起,所以我总觉得说脏话的概率在性别上是平衡的,可事实却并非如此。男性比女性使用更频繁的词是“狗屁”“放屁”“他妈的”“王八蛋”等。
我喜欢这个研究的原因是,新数据告知我们早就存在但我们不一定知道的模式。男性和女性的说话方式一直都不同,但是数万年来,一旦某个声波在时空中消逝,它的数据便会消失。现在,这一数据不仅可以保存在电脑中,而且可以被用来进行分析处理。
考虑到我本人的性别,我或许会说:“过去,文字常他妈的玩消失,如果真他妈的有人在意的话,现在我们可以不看球赛、不玩游戏,而是去学这个破玩意儿。就这么回事,如果有哪个蠢货这么他妈在意的话!”
说话方式不同不仅仅限于男性和女性之间。随着年龄的增长,人们也会使用和以前不一样的词汇。这甚至可以为我们提供一些人类衰老过程的线索。年少时爱喝酒,20多岁时忙工作,而立之年以后开始祈祷。
有一个强大的文本分析新手段好像叫情绪分析。如今科学家可以判断一个特定文本的篇章有多么开心或多么失落。
如何判断呢?许多科学家团队都曾邀请很多人对英语语言中数以万计的积极或消极的词语进行编码。根据这一方法,最积极的词语有快乐、爱和棒极了,而最消极的词语则有伤心、死亡和沮丧。如此一来,他们就建立了一大套情绪词汇的索引。
运用这一索引,他们就能测量一段文本篇章中词汇的大致情绪。如果有人写道,“我很快乐,也有人爱,因此感觉很棒”,情绪分析就会将这一句话按极快乐文本编码;如果有人写道,“一想到世上有人死亡,有人沮丧,我就很伤心”,情绪分析则会将其按极伤感文本编码。其余文本篇章的情绪则在这两者之间。
所以,为文本情绪编码时你能了解到什么?脸谱网的数据科学家已经透露了一个激动人心的可能性——他们可以评估一个国家每天的国民幸福指数!如果人们的状态信息趋于积极,那么我们就认为这个国家在这一天是快乐的;如果人们的状态信息趋于消极,那么我们就认为这个国家在这一天是不快乐的。
在脸谱网数据科学家的发现中有这么一项:圣诞节是一年中最快乐的日子之一。现在,我对这项研究心存怀疑,而且对整个项目都持怀疑态度。一般而言,我认为很多人在圣诞节会偷偷伤心,因为他们很孤单,或者与家人发生争执。更多的时候,我不相信脸谱网的状态更新,原因我会在下一章中具体描述——也就是说,我们在社交媒体上呈现的生活通常是一派谎言。
如果你在圣诞节孤身一人,感到难受,你真的想要通过发帖说自己有多不开心,打搅你所有的朋友吗?我猜很多人圣诞节都过得不开心,但他们依然会在脸谱网上发帖称自己非常感激这“奇妙、精彩、神奇、快乐”的生活,然后他们就被贴上了大幅提高美国国民幸福指数的标签。如果真想要了解国民幸福指数,我们应该更多地使用脸谱网状态更新以外的资源。
尽管如此,但总体而言,圣诞节是一个快乐的日子这一发现,似乎也有一定的道理。谷歌的搜索和盖洛普民意调查都告诉我们,圣诞节是一年中最快乐的日子之一。与城市神话相反,自杀率会在节日期间下降。即使有些人在圣诞节无人相伴,十分伤心,也有更多的人是快乐的。
如今,当人们坐下来阅读时,大多数时间都在浏览脸谱网上的状态更新,但是就在不久以前,人们还会阅读故事,有时候还会沉浸书海。对于这一点,情绪分析也会教给我们很多。
由加州大学伯克利分校信息学院的安迪·里根(Andy Reagan)领导的一个科学家团队,下载了数千个书籍和电影字幕文本。[24]他们随后为每个故事编码,确定这些故事是开心还是悲伤的。
以《哈利·波特与死亡圣器》(Harry Potter and the Deathly Hallows)为例。在里根领导的科学家团队看来,图3–3是随主要情节变化而变化的故事情绪。
图3–3 《哈利·波特与死亡圣器》中的故事情绪
注:由@HEDONOMETER团队和@ANDYREAGAN提供可视化分析,STRAY-CATS-@HOTMAIL.COM网站的基尔希负责插图。
请注意,情绪分析检测的许多情绪起伏是与主要事件相对应的。
大多数故事的结构都很简单。以莎士比亚的悲剧《约翰王》(King John)为例,在这出戏剧中,没什么好事发生。英国国王约翰被迫宣布退位。他因不服从教皇而被逐出教会。紧接着就爆发了战争。他的侄子死了,很可能死于自杀。其他人也死了。最终,约翰国王被一个早已心存不满的僧侣毒害而死。
图3– 4是随剧情发展而作的情绪分析图。
换句话说,仅仅依靠文字,电脑就可以检测事情逐渐恶化到最严重程度的过程。
图3–4 《约翰王》的剧情发展情绪分析图
或者以电影《127小时》(127 Hours)为例。以下是这部电影的基本情节:
一位登山爱好者到美国犹他州峡谷地国家公园徒步旅行。一开始还有其他旅行者做伴,但后来他就与他们分开了。突然间他失足滑倒,撞到了一块巨石,巨石压住了他的右手和手腕。他尝试了各种方法来挣脱巨石,但都失败了。他越来越沮丧。最终,他砍断手臂,成功逃了出来。后来,他结了婚,组建了家庭,但仍旧喜欢登山,尽管他现在每次离家去登山时都要留下一张便条。
图3–5是随电影情节推进而作的情绪分析图,制作者依然是里根团队的科学家。
图3–5 《127小时》情节推进情绪分析图
那么,我们从数千个此类故事的情绪变化中了解到了什么呢?
电脑科学家发现,相当多的故事都符合以下6种相对简单的结构中的一种。借用里根团队的一幅图来看,这些结构如下:
由穷变富(情绪上升)
由富变穷(情绪下降)
陷入绝境,然后成长(情绪先下降,后上升)
伊卡洛斯式(情绪先上升,后下降)
辛德瑞拉式(情绪先上升,后下降,再上升)
俄狄浦斯式(情绪先下降,后上升,再下降)
可能还有一些细微之处与这个简单的总结不符。例如,尽管在情绪低落过程中情绪会暂时上升,《127小时》依旧属于陷入绝境,然后成长的故事。大多数故事的整体结构符合六大类别之一,但《哈利·波特与死亡圣器》是个例外。
我们还能回答很多其他问题。例如,故事结构如何随时间的推移发展变化?故事会随时间的推移变得越来越复杂吗?在他们所讲的各种类型的故事中,文化会有所不同吗?人们最喜欢什么类型的故事?不同的故事结构会同时吸引男性和女性吗?会同时吸引不同国家的人吗?
最终,文本数据可能会提供我们一些前所未有的看法,帮助我们了解观众的真正需求,而这些需求与作者或高管认为的观众需求有所不同。已经有线索指向了这一方向。
我们来看看沃顿商学院的乔纳·伯杰(Jonah Berger)教授和凯瑟琳·L.米尔科曼(Katherine L. Milkman)教授的研究,他们的研究主题是人们会分享什么类型的新闻报道。[25]他们测试过到底是正面报道还是负面报道更有可能登上《纽约时报》邮件分享频度最高的名单。他们下载了近三个月以来《纽约时报》上刊登的所有文章。运用情绪分析方法,两位教授将这些文章的情绪进行了编码。正面报道的例子包括“满眼新奇的新来者爱上了这座城市”和“慈善托尼奖”。诸如“韩星自杀:网络谣言之过”和“德国:幼年北极熊饲养员之死”这类报道毫无疑问就是负面的。
两位教授也有报道排版位置的信息。是在主页吗?在右上角?左上角?他们也有故事刊登时间的信息。上周二晚上?周一早上?
他们可以比较两篇报道(一篇是正面的,另一篇是负面的)在相似的时间段刊登在《纽约时报》相似的位置,看哪篇更有可能被分享。
那么,哪篇会被分享呢?正面的还是负面的?
答案是正面的报道。正如作者总结的那样:“故事越积极向上,文本内容就越有可能得到传播。”
我们注意到,这似乎与新闻界习以为常的至理名言(人们会被暴力和灾难性的报道吸引)截然相反。新闻媒体可能确实向我们展示了很多负面的新闻报道。编辑室里有句俗话是这么说的:“只要新闻见红,报道就能走红。”然而,沃顿商学院这两位教授的研究表明,人们真正想要的可能是更多的正面报道。于是可能会产生一句新俗话——“只要新闻正能量,报道分享就看好”,尽管这句真的不那么上口。
关于伤心和快乐的文本就先说这么多。来看另一个问题,如何分辨哪些词汇是自由党偏向,哪些是保守党偏向呢?这一偏向又向我们展现了现代新媒体的哪些方面呢?这个问题有点儿复杂,也把我们的思绪拽回到根茨科和夏皮罗的研究上。还记得吗,他们就是前文提到的那两位发现同性婚姻在不同报纸上描述不同的经济学家,他们很想知道能否使用语言揭露政治偏好。
这两位雄心勃勃的年轻学者做的第一件事就是审查《美国国会议事录》(Congressional Record)。因为《美国国会议事录》早已实现了数字化,所以他们可以下载2015年每一位民主党国会议员和每一位共和党国会议员使用的每一个单词。这样他们就能查看某些短语更有可能由民主党人使用还是由共和党人使用。
有些短语确实是这样的。表3–2中列举的是几个例子。
表3–2 民主党人和共和党人的用词偏好
这些语言差异存在的原因是什么?
有时民主党人和共和党人会使用不同的短语描述同一概念。2005年,共和党人试图削减联邦遗产税,他们倾向于将遗产税描述为“死亡税”(听起来就像对刚刚过世的人强制征税),民主党人则将其描述为“地产税”(听起来像在对富人收税)。无独有偶,共和党人试图将社会保障金转移到个人退休金账户里,对他们而言,这是一次“改革”;然而,对民主党人而言,这更像一次耸人听闻的“私有化行为”。
有时语言上的差异只是反映了强调重点的不同。共和党人和民主党人可能都对民权运动英雄罗莎·帕克斯极为敬重,但是民主党人提到她的频度要比共和党人高。同样,民主党人和共和党人可能都认为伊拉克前领导人萨达姆·侯赛因是一个罪恶的独裁者,但为了证明伊拉克战争是正当合法的,共和党人便反复提及这位伊拉克前领导人。同理,“劳工权”和关心“贫民”是民主党人的核心原则,“私有财产权”和削减“政府开支”则是共和党人的核心原则。
这些语言使用频度的差异也是非常明显的。例如,2005年共和党国会议员使用“死亡税”一词365次,而使用“地产税”一词仅仅46次。对民主党国会议员来说,正好相反。他们使用“死亡税”一词仅仅35次,但对“地产税”一词的使用则达到了195次。
许多学者意识到,如果这些词汇能告诉我们一位国会议员是民主党人还是共和党人,那它们也能告诉我们一家报纸是激进的还是保守的。正如共和党国会议员更有可能使用“死亡税”这一说法来劝服人们抵制这一用法一样,保守派的报纸可能也会做同样的事。相对自由的《华盛顿邮报》使用“地产税”的频率比“死亡税”高13.7倍,但是保守的《华盛顿时报》对这两种表达的使用次数几乎是一样的。
多亏了互联网带来的奇迹,根茨科和夏皮罗才能对全美多家报纸使用的语言进行分析。这两位学者使用的是newslibrary.com和proquest.com两家网站,这两家网站共同对433家报纸进行了数字化处理。他们随后计算了1 000个这类带有政治色彩的短语在报纸上的使用频率,以测试报纸的政治倾向。通过这种方法,他们测试出最自由的报纸是《费城每日新闻》(Philadelphia Daily News),而最保守的则是《比林斯(蒙大拿州)公报》[Billings(Montana) Gazette]。
对众多媒体的偏好有了第一次全面衡量之后,你就能回答那个也许算作新闻界最重要的问题了:为什么有些出版物偏激进,而其他的却偏保守呢?[26]
两位经济学家很快就找到了一个关键因素:特定地区的政治倾向。如果一个地区总体上是自由开放的,比如费城和底特律,那么当地的主流报纸就会倾向于自由。如果一个地区更偏向保守,如比林斯和得克萨斯州的阿马里洛,那么当地的主流报纸则会倾向于保守。换句话说,这一证据明确表明了各家报纸都倾向于“想读者所想”。
你或许以为报纸的所有者会对其新闻报道的倾向施加影响,但是一般来说,一家报纸的所有者对其新闻报道的政治偏好的影响比我们想象的要小。各位请注意,当同一个人或同一家公司在不同的市场都拥有报纸时会发生什么事呢?以纽约时报公司为例。在大约70%的人口都支持民主党的纽约市,这家公司拥有根茨科和夏皮罗验证为自由派的《纽约时报》。在大约70%的人口都支持共和党的南卡罗来纳州斯帕坦堡,这家公司旗下的《斯帕坦堡先锋报》(Spartanburg Herald-Journal)则偏向保守。当然,也有例外情况:鲁珀特·默多克(Rupert Murdoch)的新闻集团拥有的就是人人都认为很保守的《纽约邮报》(New York Post)[27]。总体而言,有发现表明市场对报纸倾向的决定作用要比报纸所有者大得多。
这项研究深刻影响了人们对新闻媒体的看法。很多人(尤其是马克思主义者)都认为美国新闻业由富人或致力于影响大众的企业控制着,以此让大众接纳他们的政治观点。然而,根茨科和夏皮罗的研究表明,这并不是报纸所有者的主要动机。相反,美国报纸的所有者主要是为大众提供他们想要的报道,如此他本人就可以越来越富有了。
哦,还有一个问题——一个很大的、颇具争议的,甚至是更具煽动性的问题。平均而言,美国的新闻媒体偏左还是偏右?整个媒体业平均而言是偏自由还是偏保守?
根茨科和夏皮罗发现各家报纸整体偏左。一般的报纸在词汇的使用上更接近民主党国会议员而不是共和党国会议员的风格。
保守派的读者可能会说:“看,我早就和你说过了!”很多保守人士很久以来一直都在怀疑许多报纸已经有了偏好,目的就是操纵大众支持左翼的观点。
但作者们不这么认为。事实上,自由主义的偏向目前很好地适应了报纸读者的需求。平均而言,报纸的读者有点儿左倾(这一点他们有数据为证)。因此,报纸一般会稍微左倾,为读者提供他们需要的观点。
这里没有阴谋,有的只是资本主义。
根茨科和夏皮罗的研究结果显示,新闻媒体和世界上所有其他行业的运作方式如出一辙。超市总会搞清楚人们喜欢什么口味的冰激凌,然后将这样的冰激凌摆满货架;同理,新闻媒体也会获悉人们想看到哪些观点,然后将这些观点融入报纸的每条新闻中。夏皮罗告诉我:“这就是生意。”[28]将新闻、分析、观点这类复杂的事物细分和量化为基本的组成部分——词之后,你就会明白这个道理。
长久以来,学术界人士或商界人士想要获取数据时,会进行调查,那些数据清一色来源于问卷调查中的数字或选项。而今的情势已然不同,那个规整的、清晰的、简单的、基于调查的数据时代已经结束了。在这个新时代,我们生活中留下的杂乱痕迹已经变成了数据的主要来源。
我们已经了解到文字是数据,点击量是数据,链接是数据,错别字是数据,梦中的香蕉是数据,人的语气是数据,喘息声是数据,心跳是数据,脾脏大小是数据。我认为,搜索是最具启发性的数据。
事实证明,图片也是数据。
文字曾经局限于那些摆放在落满尘埃的书架上的书籍和刊物中,而今已经实现了数字化;同样,图片也已经从相册和纸箱中解放出来,转换成数位,存入云端。文本可以给我们上历史课,例如向我们展示人们说话方式的变化;同样,图片也能给我们上历史课,例如向我们展示人们拍照方式的变化。
以一项具有独创性的研究为例,这项研究是由布朗大学和加州大学伯克利分校的4位电脑科学家组成的团队发起的。他们利用了数字化时代的发展:许多高中已经电子扫描了其历史年鉴,可以在线获取。纵观网络,研究人员发现了949本1905—2013年间美国高中的扫描版年鉴,其中包括数万张毕业生照片。[29]运用电脑软件,他们能够从每10年的所有照片中创造一张大众脸。也就是说,他们能勾勒出人们的鼻子、眼睛、嘴唇和头发的一般位置与形状。图3–6是一个多世纪以来的大众脸,按性别分类。
图3–6 一个多世纪以来的大众脸
注意到什么了吗?美国人(尤其是美国女性)开始微笑了。他们从20世纪初的几乎面无表情到最后满脸笑容。
那么,到底是什么改变了这一状况?美国人因此更加开心了吗?
答案是否定的。其他学者帮忙回答了这一问题。变化的原因,至少对我来说是很吸引人的。当照片刚刚问世时,人们认为它们就像绘画一样。那时,根本没有东西能与之相提并论。因此,照片中的人复制了绘画中的人。[30]因为人们无法为绘画保持微笑长达数小时,所以他们就摆出一副严肃的表情。照片里的人也用了相同的表情。
那最终是什么让她们做出改变的呢?当然是商业、利润和市场。20世纪中叶,柯达,一家美国影像公司,因人们拍摄的照片数量有限而倍感挫败,因此制定了一个策略来鼓励人们拍摄更多照片。不久,柯达公司的广告就将照片与幸福联系在一起,目的就是让人们养成习惯,只要想向其他人展示自己玩得多么开心,就拍张照。所有那些面带笑容的年鉴照片都是柯达公司成功的广告宣传的结果[你在脸谱网或照片墙(Instagram)上看到的大多数照片也是如此]。
照片作为数据,能告诉我们的信息远不止高中毕业生何时开始说“茄子”。意外的是,图像居然能向我们展示经济状况。
以一篇题目很具煽动性的学术论文《从外部空间衡量经济增长》为例。一篇论文有这样一个标题,我一定会读它。这篇论文的作者J.弗农·亨德森(J. Vernon Henderson)、亚当·斯托里加德(Adam Storeygard)和戴维·N.韦尔(David N. Weil)开始筹划这篇论文是因为注意到,在很多发展中国家,衡量GDP(国内生产总值)的现有方法效率不高。这是因为很大一部分经济活动都是暗箱操作的,而衡量经济产出的政府部门没有充足的资源。
几位作者的想法有悖常理吗?他们能够基于这些发展中国家的夜间灯光亮度来协助估算其GDP,而他们的信息则来自一颗每天绕地球14圈的美国军用卫星拍摄的照片。[31]
为什么夜间灯光亮度会成为测量GDP的准确手段呢?在全球那些非常贫穷的地区,付电费是特别吃力的事。因此,当经济状况不好的时候,很多家庭和村庄会大大减少夜间的用电量。
1998年亚洲金融危机发生时,印度尼西亚的夜间用电量急剧下降。在韩国,1992—2008年夜间用电量增长了72%,与此相对应,同时期韩国经济表现非常强劲。在朝鲜,同一时期的夜间用电量则在下降,与此相对应的是当时朝鲜的经济表现十分低迷。
1998年,马达加斯加岛南部发现了很多红宝石和蓝宝石,伊拉卡卡小镇从一个卡车驿站发展成为重要的贸易中心。在1998年之前,伊拉卡卡连一盏灯都没有!在那之后的5年里,伊拉卡卡小镇夜晚的灯光数量发生了爆炸式的增长。
三位作者承认他们夜间灯光的数据远远算不上衡量经济产量最完美的方法。仅仅依靠卫星在夜间检测到的灯光数量,你无法准确了解一个国家的经济状况。他们不建议对发达国家使用这一方法,因为在发达国家,比如美国,现有的经济数据更加准确。而且公正地说,就算在发展中国家,他们也发现夜间灯光这一数据的作用和官方数据差不多,但如果把两者结合起来,就能比单独用其中一种信息进行预估的结果更准确。也就是说,你可以利用从外太空拍摄的照片来提高对发展中国家的认知。
约瑟夫·赖辛格(Joseph Reisinger),一位嗓音温柔的电脑科学博士,与研究夜间灯光的作者一样,对发展中国家经济状况相关的现有数据集颇感失望。赖辛格注意到,在2014年4月,尼日利亚政府将过去可能遗漏的新兴产业考虑在内,更新了对GDP的预估,该预估值比原来高出90%。[32]
“尼日利亚是非洲最大的经济体,”赖辛格说道,声音逐渐大了起来,“可对那个国家,我们对想了解的事情连最基本的方面都没有碰触到!”[33]
他想找到一种方法,能够更加清晰地看到经济表现。他的解决方案为如何重新定义数据的组成和这样做的价值提供了典范。
赖辛格创立了一家名为Premise的公司,聘用了一群来自发展中国家的工人,还给他们配备了智能手机。这些职员需要做什么工作呢?很简单,就是拍一些有趣的,可能会产生经济影响的事物。
这些工人可能会在加油站外面拍照,也可能会给超市里的水果摊位照张相。他们对同一个地方一次又一次地拍照。照片则发回Premise公司,由第二组雇员即电脑科学家将这些照片转换成数据。从加油站的线路长度到超市里的苹果数量及这些苹果的成熟度,再到苹果摊上贴的价格标签,Premise公司所有的分析人员都能将其编码保存。基于对各种活动所拍的照片,公司就可以着手对经济产出和通货膨胀进行合并研究了。在发展中国家,加油站的线路过长在很大程度上说明这个国家的经济发展遇到了麻烦,超市里的苹果数量很少或没有成熟也可以说明这一点。Premise公司那些在中国实地拍摄的照片帮助他们在官方数据发布之前就先发现了中国2011年的食品通货膨胀和2012年的食品通货紧缩状况。
Premise公司把这些信息卖给银行或对冲基金,也与世界银行进行合作。
和许多好点子一样,Premise公司的好点子就是不断给予。世界银行近来对菲律宾地下香烟经济的规模很关注,尤其想知道菲律宾政府最近为打击生产香烟而不纳税的制造商所做的努力(包括随机抽查)是否有效。Premise公司有什么好主意吗?将大街上见到的香烟盒拍下来,看多少香烟盒上贴有印花税标识,因为所有合法的香烟都需要贴印花税标识。他们发现,这一地下经济的规模2015年时还很庞大,而到了2016年便急剧缩小。菲律宾政府做出的努力也起到了作用,尽管要看清很隐蔽的事情(如非法香烟)需要新数据。
正如我们所见,在数据时代,数据的构成因素被普遍重构,在新的信息里我们也有了很多洞见。了解到是什么导致了媒体的偏好,是什么成就了完美的第一次约会,发展中国家的经济状况是怎样的,这一切只是开始而已。
迄今为止,人们已经凭借新数据大赚特赚,布林和佩奇两位先生豪入几百亿美元不过是个开始,这一点绝非偶然。约瑟夫·赖辛格自己一个人做得也不赖。许多观察家估计,Premise公司现在的年收入可达数千万美元。多位投资者最近向Premise公司注入了5 000万美元[34],这意味着有些投资者已经将Premise公司视为全球照片拍摄和销售行业中最具价值的企业之一,其名气堪比久负盛名的《花花公子》(Playboy)了。
换句话说,对学者和企业家来说,运用现有的各种新型信息,从广义视角思考数据的定义,此举具有巨大的价值。今天,一名数据科学家一定不能把自己局限于狭窄的或传统的数据观内。今天,超市流水线的照片是宝贵的数据,超市摊位的货物充足与否是数据,苹果的成熟度是数据,外太空拍摄的照片是数据,嘴唇的上扬弧度是数据,所有的一切都是数据!
有了所有这些新数据,我们终能看破谎言。
[1] Matthew Leising,“HFT Treasury Trading Hurts Market When News Is Released,” Bloomberg Markets, December 16, 2014; Nathaniel Popper,“The Robots Are Coming for Wall Street,”New York Times Magazine, February 28, 2016, MM56; Richard Finger,“High Frequency Trading: Is It a Dark Force Against Ordinary Human Traders and Investors?”Forbes, September 30, 2013, http://www.forbes.com/sites/richardfinger/2013/09/30/high-frequencytrading-is-it-a-dark-force-against-ordinary-human-traders-andinvestors/#50875fc751a6.
[2] 2015年5月8日,我通过电话采访了艾伦·克鲁格。
[3] 最初发表的论文为Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S.Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant,“Detecting Influenza Epidemics Using Search Engine Query Data,”Nature 457, no. 7232 (2009)。原始模型的瑕疵参见David Lazer, Ryan Kennedy, Gary King, and Alessandro Vespignani,“The Parable of Google Flu: Traps in Big Data Analysis,”Science 343, no.6176 (2014)。修正的模型参见Shihao Yang, Mauricio Santillana,and S. C. Kou,“Accurate Estimation of Influenza Epidemics Using Google Search Data Via ARGO,”Proceedings of the National Academy of Sciences 112, no. 47 (2015)。
[4] 虽然谷歌流感(Google Flu)的初始版本有重大缺陷,但研究人员最近重新校准了该模型并大获成功。——作者注
[5] Seth Stephens-Davidowitz and Hal Varian,“A Hands-on Guide to Google Data,” mimeo, 2015. 也可参见Marcelle Chauvet, Stuart Gabriel, and Chandler Lutz,“Mortgage Default Risk: New Evidence from Internet Search Queries,”Journal of Urban Economics 96(2016)。
[6] Sergey Brin and Larry Page,“The Anatomy of a Large-Scale Hypertextual Web Search Engine,” Seventh International World Wide Web Conference, April 14–18, 1998, Brisbane, Australia.
[7] John Battelle, The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture (New York:Penguin, 2005).
[8] 有关这一点早有精彩论述,参见Steven Levy, In the Plex: How Google Thinks, Works, and Shapes Our Lives (New York: Simon &Schuster, 2011)。
[9] 此引也见于Joe Drape,“Ahmed Zayat’s Journey: Bankruptcy and Big Bets,”New York Times, June 5, 2015, A1。然而,这篇文章错误地认为此引是塞德提出的,实际上,提出此引的是其团队的另一名成员。
[10] 2015年6月12—14日,我在佛罗里达州奥卡拉采访了杰夫·塞德和帕蒂·默里。
[11] 根据多年经验,杰夫·塞德认为赛马失败的原因是判断不当。
[12] 纯种马受伤数据库统计补充表见http://jockeyclub.com/pdfs/eid_7_year_tables.pdf。
[13] “Postmortem Examination Program,” California Animal Health and Food Laboratory System, 2013.
[14] Avalyn Hunter,“A Case for Full Siblings,”Bloodhorse, April 18,2014, http://www.bloodhorse.com/horse-racing/articles/115014/a-case-for-full-siblings.
[15] Melody Chiu,“E. J. Johnson Loses 50 Lbs. Since Undergoing Gastric Sleeve Surgery,”People, October 1, 2014.
[16] Eli Saslow,“Lost Stories of LeBron, Part 1,” ESPN.com, October 17, 2013, http://www.espn.com/nba/story/_/id/9825052/how-lebronjames-life-changed-fourth-grade-espn-magazine.
[17] 参见Sherry Ross,“16 Million Dollar Baby,” New York Daily News,March 12, 2006和Jay Privman,“The Green Monkey, Who Sold for $16M, Retired,” ESPN.com, February 12, 2008, http://www.espn.com/sports/horse/news/story?id=3242341。拍卖录像可参见“$16 Million Horse,” YouTube video, posted November 1, 2008, https://www.youtube.com/watch?v=EyggMC85Zsg。
[18] Sharad Goel, Jake M. Hofman, Sébastien Lahaie, David M.Pennock, and Duncan J. Watts,“Predicting Consumer Behavior with Web Search,”Proceedings of the National Academy of Sciences 107, no. 41 (2010).
[19] Constance L. Hays,“What Wal-Mart Knows About Customers’Habits,”New York Times, November 14, 2004.
[20] 2016年10月27日,我对奥利·阿申费尔特进行了电话采访。
[21] Daniel A. McFarland, Dan Jurafsky, and Craig Rawlings,“Making the Connection: Social Bonding in Courtship Situations,”American Journal of Sociology 118, no. 6 (2013).
[22] Jonathan Greenberg,“What I Learned From My Wise Uncle Leonard Cohen,”Huffington Post, November 11, 2016.
[23] H. Andrew Schwartz et al.,“Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach,”PloS One 8, no. 9 (2013). 这篇论文还根据性格测试得分来分析人们的说话方式。
[24] Andrew J. Reagan, Lewis Mitchell, Dilan Kiley, Christopher M.Danforth, and Peter Sheridan Dodds,“The Emotional Arcs of Stories Are Dominated by Six Basic Shapes,”EPJ Data Science 5,no. 1 (2016).
[25] Jonah Berger and Katherine L. Milkman,“What Makes Online Content Viral?”Journal of Marketing Research 49, no. 2 (2012).
[26] 该项研究的详细论述参见Matthew Gentzkow and Jesse M.Shapiro,“What Drives Media Slant? Evidence from U.S. Daily Newspapers,”Econometrica 78, no. 1 (2010)。虽然这个项目刚开始时他们只是博士生,但现在根茨科和夏皮罗已经成为重量级经济学家。根茨科现为斯坦福大学教授,2014年获得仅授予40岁以下顶级经济学家的约翰·贝茨·克拉克(John Bates Clark)奖章。现为布朗大学教授的夏皮罗则是著名的《政治经济学杂志》(Journal of Political Economy)的编辑。两人共同撰写的有关媒体偏向的论文是被引用次数最多的论文之一。
[27] 默多克对保守派《纽约邮报》的所有权可以解释为,纽约如此之大,支持多种观点的报纸。然而,很明显,《纽约邮报》一直在亏损。例如,参见Joe Pompeo,“How Much Does the ‘New York Post’ Actually Lose?”Politico, August 30, 2013, http://www.politico.com/media/story/2013/08/how-much-does-the-new-yorkpost-actually-lose-001176。
[28] 2015年8月16日,我在波士顿皇家桑纳斯塔采访了马特·根茨科和杰西·夏皮罗。
[29] Kate Rakelly, Sarah Sachs, Brian Yin, and Alexei A. Efros,“A Century of Portraits: A Visual Historical Record of American High School Yearbooks,” paper presented at International Conference on Computer Vision, 2015. 经作者许可,这些照片可供转载。
[30] 例如,参见Christina Kotchemidova,“Why We Say ‘Cheese’: Producing the Smile in Snapshot Photography,”Critical Studies in Media Communication 22, no. 1 (2005)。
[31] J. Vernon Henderson, Adam Storeygard, and David N.Weil,“Measuring Economic Growth from Outer Space,”American Economic Review 102, no. 2 (2012).
[32] Kathleen Caulderwood,“Nigerian GDP Jumps 89% as Economists Add in Telecoms, Nollywood,”IBTimes, April 7, 2014, http://www.ibtimes.com/nigerian-gdp-jumps-89-economists-add-telecomsnollywood-1568219.
[33] 2015年6月10日,我对约瑟夫·赖辛格进行了电话采访。
[34] Leena Rao,“SpaceX and Tesla Backer Just Invested $50 Million in This Startup,”Fortune, September 24, 2015.
人人都在说谎。
人们谎称他们在回家的路上喝了多少酒,谎称自己多久去一次健身房,谎称买那双新鞋花了多少钱,就连看没看过那本书也会说谎。他们请病假,但并未生病。他们说常联系,其实只是套话。他们说跟你没关系,可实际上说的就是你。他们说爱你,却并未付出真心。他们心情沮丧,却强颜欢笑。他们说喜欢女人,但真正爱的是男人。
人们对朋友说谎,对上司说谎,对孩子说谎,对父母说谎,对医生说谎,对丈夫说谎,对妻子说谎。人们,对自己也说谎。
他们百分之百对调查说谎。
我给各位来个简单的小调查:
你在考场上作过弊吗?______
你幻想过杀人吗?______
你试图说过谎吗?即使大多数调查是匿名的,许多人在调查中也会隐瞒不堪的行为和想法。他们希望自己看起来好一点。这一现象被称为社会期许误差。
1950年的一篇重要论文曾经提供有力证据证明调查是如何使受害者陷入这种误差的。[1]研究人员从官方来源搜集了丹佛居民的数据:投票的比例、捐款的比例、借书证的持有比例等。之后他们再去调查居民,看这些比例是否和官方数据相匹配。当时的结果令人震惊。居民反馈的内容与研究人员搜集的数据大不相同。尽管不是实名调查,但是多数人夸大了自己的选民登记状况、投票参与度和慈善捐款情况(见表4–1)。
表4–1 调查报告与官方统计的不同
那么从1950年到现在情况有什么变化吗?在这个互联网时代,没有借书证已经不是什么丢脸的事了。尽管令人为难或者期待的事已经不同了,但人们欺骗民意调查人员的想法依旧很强烈。
最近的一项调查向马里兰大学的毕业生提出了各种与其大学经历相关的问题。[2]调查人员事后将学生的回答与官方记录做了对比。人们不约而同地给出了错误信息,好让自己看起来不那么差劲。仅有不到2%的人表示他们毕业时的GPA(平均学分绩点)低于2.5。(事实上该比例约有11%。)44%的人表示,他们在过去一年里曾给大学捐过款。(事实上该比例仅约有28%。)
相关机构未能凭借民意调查预测特朗普会获得2016年大选的胜利,其中必然也有谎言在作祟,民意调查平均低估了特朗普大约两个百分点的支持率。[3]有些人可能不好意思说想要支持他,有些人可能说他们还没下决定,但一直都站在特朗普一方。
为什么人们会向匿名调查提供错误信息呢?我曾就这一问题请教过密歇根大学名誉研究教授、世界一流的社会期许误差专家罗杰·图朗若(Roger Tourangeau)。他解释说,人们总是喜欢“善意的谎言”这一弱点是导致这个问题的重要原因。“在现实生活中,大约有1/3的时间人们都会说谎,”他说道,“这些习惯延续到了调查中。”
因此,我们有时候会有对自己说谎的奇怪习惯。“如果你是个学生,那你肯定不愿意承认自己是个差生。”图朗若说。[4]
对自己说谎也许可以解释为什么这么多人说自己优于平均水平。[5]那么,这个问题有多严重呢?一家公司超过40%的工程师表示他们的水准位列全公司前5%。90%以上的大学教授表示他们的科研能力高于平均水平。1/4的高中生认为自己与为人处世的能力处于前1%。如果你在自欺欺人,在调查中就不会很诚实。
我们对调查说谎的另一个原因是,如果有人进行采访,我们强烈希望给做采访的陌生人留下好印象。正如图朗若所说:“一个人走了进来,她看起来像你最喜欢的阿姨……你愿意告诉她你上个月吸食过大麻吗?”(说谎的另一个原因是单纯地想搞乱调查。[6]对任何有关青少年的研究来说,这都是一个巨大的难题,从根本上提高了我们理解这个年龄组的难度。研究人员最初发现了被领养青少年与各种消极行为(如吸毒、喝酒和逃学)之间的相关性。在随后的研究中,他们发现自称被领养的青少年中有19%的人其实并非被领养的。后续研究发现,相当一部分青少年告诉调查人员,他们身高超过7英尺,体重超过400磅(约181.4公斤),或家里有三个孩子。一项调查发现许多学生对学术研究人员报告称自己装有义肢,但其中99%的人是在开玩笑。——作者注)你愿意承认你没有捐钱给自己的母校吗?
因此,情况越是与自己无关,人们越诚实。想要得到真实的答案,电话调查比现场调查好,互联网调查比电话调查好。人们独自一人时比和他人在一起时会坦诚许多。
在敏感话题上,每一种调查方法都会有大量的误报。图朗若在这里使用了经济学家常用的一个词——“激励机制”,也就是说,人们没有动机告诉调查人员真相。
所以,我们怎样才能了解我们的人类同胞真正在想什么、做什么呢?
在某些情况下,我们可以参考官方数据来获得真相。例如,即便人们谎报他们的慈善捐款,我们也可以从慈善机构得到真实的数字。当我们试图了解那些没有列在官方记录中的行为时,或者当我们试图去了解人们的想法(他们的真实信仰、感受和欲望)时,除了人们可能愿意在调查中透露的信息外,再无其他的信息来源了。到现在为止就是这样。
大数据的第二大功能是:某些在线资源可以让人们承认他们在其他地方不会承认的事。这些资源就是数字吐真剂。想想谷歌搜索就明白了。还记得那些让人们更诚实的条件吧。线上?没错。独自一人?没错。没有人亲自进行调查?没错。
谷歌搜索还有另一个巨大的优势可以让人们说出真相:激励机制。如果你喜欢种族主义的笑话,那么你与某项非在线调查分享这个喜好的激励机制为零。然而,你却拥有在网上搜索最好、最新的种族主义笑话的激励机制。如果你认为自己可能有抑郁倾向,就不会有向一项调查坦承此事的激励机制,但你会向谷歌求助其症状及潜在的治疗方法。
即使你对自己说谎,谷歌也可能会知道真相。在选举前几天,你和邻居可能都以为自己会开着车去投票站投票,但是,如果你们都没有搜索任何关于投票方式或投票地点的信息,那么数据科学家(比如我)就能预测你所在地区的投票率实际上会很低。同样,也许你不会对自己承认自己有抑郁倾向,但只要你用谷歌搜索了一下“哭起来没完”和“起床困难”,你就会在前文中我分析过的与某个地区抑郁相关的搜索中出现。
想想你自己使用谷歌的经历就明白了。我猜你有时会在搜索框中输入一些东西,而这些东西正是你在公共场合不会坦言的。事实上,绝大多数美国人都在告诉谷歌一些非常私人的东西,证据很充分。比如,美国人更多地搜索“色情片”,而非“天气”。[7]顺带一提,这和调查数据很难吻合,因为只有25%的男性和8%的女性承认自己看色情片。[8]
在看到搜索引擎自动尝试补全你的搜索时,你可能也注意到谷歌搜索中的某种诚实——它的搜索建议基于其他人最常见的搜索。所以,自动补全为我们了解人们到底在搜索什么提供了线索。实际上,自动补全可能会稍微带来一点误导。谷歌不会推荐某些它认为不雅的词。[9]这意味着自动补全在告诉我们,人们的真实想法比谷歌的想法更为不雅。即便如此,一些敏感的东西往往还是会出现。
如果你输入“为什么……”,目前谷歌自动补全的前两个搜索是“为什么天空是蓝色的”和“为什么有闰日”,这表明它们是完成这个搜索最常见的两种方式。第三个是“为什么我的便便是绿色的”。谷歌的自动补全也会令人心惊。如今,如果你输入“想要……正常吗”,第一个补全建议是“杀死”。如果你输入“想要杀死……正常吗”,第一个补全建议居然是“我的家人”!
是否需要更多的证据才能证明谷歌搜索能为我们呈现一个和我们日常所见截然不同的世界?想想“决定生(不生)孩子是否会后悔”的相关搜索。在决定之前,有些人担心他们会做出错误的选择。而且,问题几乎全是他们是否会后悔没有生孩子。在谷歌上,人们询问没有生孩子是否会后悔的次数是询问生孩子是否会后悔的次数的8倍。
做出决定(要么照做或采纳,要么拒绝)之后,有时人们会向谷歌坦言他们对自己的选择感到后悔。这可能很令人吃惊,但为时已晚,数据呈现的结果是截然相反的。有孩子的成年人告诉谷歌他们后悔的概率是没有孩子的成年人后悔概率的3.6倍。[10]
在本章中应该牢记的一点是:谷歌可能会透露对不体面想法(人们觉得不能与任何人讨论的想法)的偏见。如果我们试图搜索一些隐藏的想法,谷歌就发现它的能力可能要派上用场了。生孩子和没有生孩子这两种遗憾之间的巨大差别似乎告诉我们,在这种情况下,不体面的想法是非常重要的。
咱们暂且停下来想一想搜索“我后悔生孩子”到底意味着什么。谷歌给自己的定位是:做一个可以直接搜索信息的信息源,包括天气情况、昨晚的赛况或者自由女神像何时揭幕等。有时候我们把未经思考的想法输入谷歌,并没有指望它能提供什么帮助。在这种情况下,搜索窗口的作用便无异于一间忏悔室。
每年都有数千条搜索,比如,“我讨厌冷天”,“人们可真烦”,“我很难过”。当然,那数千条“我很难过”的搜索代表的只是在某一年内感到悲伤的数亿人中的极小部分人。我的研究发现,拥有这种想法的人中只有一小部分会通过搜索表达自己的想法,大部分人只为寻找信息。我的研究表明,美国人每年搜索“我后悔生孩子”7 000次,这个搜索频率代表的同样只是那些有这种想法的人中的一小部分人。
对许多(也许是大多数)人来说,养儿育女显然是一大乐事。尽管我母亲担心“你和你那没用的数据分析”会影响到她孙辈的数量,但这项研究并没有改变我要孩子的愿望。这种不够体面的遗憾很有趣,也是我们在传统数据集中往往不会看到的人性的另一面。我们的文化总是让我们满眼充斥着美好、幸福的家庭形象。大多数人可能永远不会觉得生儿育女会成为他们可能会后悔的事情,但总有人会后悔。他们可能不会向任何人承认这一点——除了谷歌。
有多少美国男性是同性恋者?这是性问题研究中一个经久不衰的问题,也是社会科学家最难回答的问题之一。心理学家不再相信阿尔弗雷德·金赛(Alfred Kinsey)的著名判断(根据对囚犯和妓女做过的采样调查),10%的美国男性是同性恋者。现在较具代表性的调查告诉我们这个比例是2%~3%,但性取向一直是人们倾向于说谎的事情之一。我想我可以用大数据来更好地回答这个问题。
先来说说上文的调查数据。调查表明,在同性恋容忍州,同性恋者人数远多于同性恋不容忍州。例如,根据一项盖洛普民意调查,在同性婚姻支持率最高的罗得岛州,同性恋人口的比例几乎是同性婚姻支持率最低的密西西比州的两倍。[11]
对此有两种可能的解释。首先,出生在同性恋不容忍州的同性恋者可能会搬到同性恋容忍州;其次,在同性恋不容忍州的男同性恋者不愿透露自己是同性恋者。他们更有可能会说谎。
对上述第一种解释(同性恋者流动性)的洞见可以从另一个大数据来源脸谱网获取到。脸谱网用户可以选择他们感兴趣的性别。大约2.5%的男性用户感兴趣的性别是男性,这与调查显示的数据大致相符。[12]脸谱网也显示,在不同容忍度的州,同性恋人口表现出巨大的差异:脸谱网上罗得岛州的同性恋用户人数比密西西比州的同性恋用户人数多出两倍以上。
脸谱网还可以提供人们如何迁移的信息。我将一个“出柜”[13]男同性恋脸谱网用户样本的家乡信息进行了编码,这样我可以直接估算有多少男同性恋者从不容忍州搬到了更加宽容的地方。结果如何呢?流动是肯定存在的,如从俄克拉何马城搬到旧金山。不过我想,男人们装上朱迪·嘉兰(Judy Garland)的唱片搬到更加开放的地方,这并不能完全解释“出柜”男同性恋人群在容忍州和不容忍州之间的差别。[14]
另外,脸谱网使我们可以集中观察高中生。这是一个特殊的群体,因为他们无法选择居住地(只能和父母住在一起)。如果流动性解释了“出柜”男同性恋人群的地域差异,这些差异就不应该在高中用户中出现。那么高中用户的数据说明了什么呢?在不容忍州,“出柜”同性恋高中生人数极少。在密西西比州,2 000名男高中生用户中只有一人“出柜”。所以,不只有流动性。
如果每个州出生的男同性恋者人数相当,而流动性又不能完全解释为什么一些州的“出柜”男同性恋者较多,那么用来隐瞒个人性取向的“柜子”必然扮演着重要的角色。于是,我们又被带回到谷歌,事实证明,人们愿意在谷歌上分享更多。
那么,能否通过色情搜索的方式验证在不同的州到底有多少男同性恋者呢?确实有这么一种办法。运用谷歌搜索和谷歌广告关键词(Google AdWords)的数据,我推测,在全美范围内大约有5%的男性色情搜索是针对男性同性色情的。[15](这些内容包括搜索备受欢迎的同性色情网站和同性色情片)。
那么,这些搜索在全美不同地区又有何不同呢?总体而言,和不容忍州相比,容忍州有更多的同性色情搜索。这是说得通的,因为一些男同性恋者从不容忍州搬到了容忍州,但这种不同远没有调查和脸谱网上显示的那么明显。我估计,在密西西比州有4.8%的男性色情搜索有关同性色情,远高于调查或脸谱网的数据,更接近在罗得岛州5.2%的同性色情搜索率。
那么,到底有多少美国男性是同性恋者呢?运用男性色情搜索(大约5%的搜索针对同性色情)的方法,似乎可以合理地估算出美国同性恋人口的真实规模。还有另一种不那么直接的方法可以得到这个数据,这种方法需要运用数据科学。我们需要利用容忍度与“出柜”同性恋人群之间的关系,请诸位给我点儿耐心。
我的初步研究表明,在一个既定的州内,对同性婚姻每20个百分点的支持率,就意味在脸谱网上公开自己同性恋者身份的该州男子数量会增至原来的1.5倍。基于此,我们可以估计有多少出生在一个假设完全接受同性恋(即所有人都支持同性婚姻)的地方的男性是公开的同性恋者。我的估算是5%左右,这同运用色情搜索得到的数据十分吻合。加利福尼亚海湾地区的男高中生在对同性恋高度容忍的地区长大,其中约4%的人在脸谱网上公开“出柜”。[16]这似乎和我的计算不谋而合。
应该说我还没能想出如何估算女性之间的同性吸引数据,因为女性很少看色情片,所以色情数据在这儿几乎派不上用场。这使得该采样不那么具有代表性。那些看色情片的女性,甚至在现实生活中主要被男性吸引的女人,似乎也喜欢看女性同性色情片。在色情网站上,女性看的20%的影片是女性同性色情片。
当然,5%的美国男性是同性恋者仅仅是一个推测。有的男性是双性恋者,有的男性(特别是年轻人)还不确定他们的性取向。显然,这个数据不可能像投票或者看电影的人数那样精确。
我的估算有一个很明显的后果:在美国,特别是在不容忍州,很多男性仍未“出柜”。他们不愿在脸谱网上透露自己的性取向,不会在调查中承认自己的性取向,在许多情况下,他们甚至会和女性结婚。
事实证明,妻子常常怀疑她们的丈夫是同性恋者。她们最常见的搜索证实了她们的疑惑:“我的丈夫是同性恋者吗?”“同性恋者”是作为补全“我的丈夫是不是……”这一搜索排名第一的词语,其搜索率比排名第二的“出轨了”高出10%,更是“酒鬼”一词的8倍,是“抑郁”一词的10倍。
最有说服力的是,质疑丈夫性取向的搜索在最不容忍的地区更为普遍。提出该问题的女性比例最高的州是南卡罗来纳州和路易斯安那州。事实上,在这个问题出现最频繁的25个州中,有21个州对同性婚姻的支持低于全国平均水平。
想要了解男性的性取向问题,谷歌和色情网站并不是仅有的有用数据资源。大数据中有更多证据告诉我们生活在“柜子”里到底是什么样的。我分析了“克雷格列表”(Graig list)网站上男性寻找“偶遇”的广告。寻求与男性偶遇的广告占比在较不容忍的州往往更大,其中数肯塔基州、路易斯安那州和亚拉巴马州最高。
为了更深入地了解这个“柜子”,让我们再回到谷歌搜索数据获取更详尽的信息吧。和“同性色情片”搜索量相当的最常见的搜索之一是“同性恋测试”,这些测试可以推测并告诉男性他们是不是同性恋者。该搜索在最不容忍州的搜索量大致是其他州的两倍。
在搜索“同性色情片”和“同性恋测试”之间犹豫不决意味着什么呢?据推测,这暗示了一种备受折磨或十分困惑的心理。有理由怀疑这些人中的一些人希望证实他们对同性色情感兴趣并不代表他们实际上就是同性恋者。
谷歌搜索数据不允许我们查看某一特定用户过去的搜索记录,但是,2006年,美国在线(AOL)向学术研究人员公布了一个用户搜索样本。从这位匿名用户在6天内的搜索结果可以看出,这明显出自一个对自己的性取向感到很困惑的男人。谷歌的数据告诉我们,像他这样的人还有很多。实际上,他们中的大多数人居住在较为不容忍同性关系的州。
为了更进一步了解这些数据背后的人,我求助了密西西比州一位致力于帮助未“出柜”同性恋群体的精神病医生,看他的病人中是否有人愿意接受我的访问。有一名男子愿意,该男子告诉我他60多岁,是一名退休教授,和一个女人结婚40多年了。
大约10年前,该男子在巨大的压力下就诊于这位精神病医生,最后弄清了自己的性取向。他说,他一直都知道自己被男性吸引,可他认为这是所有人都有的,也是所有男性都藏匿起来的秘密。在接受第一次治疗之后不久,他有了第一次,也是唯一一次同性性行为,对象是他一个年近30岁的学生。他形容这次经历“美妙至极”。
他和妻子从未有过性生活。他说如果结束这段婚姻或公开和男性约会,他会有负罪感。他几乎对自己人生中的所有重要决定都感到遗憾。
这名退休教授和他的妻子还会相伴走下去,没有浪漫爱情,也没有性生活。尽管(同性恋各方面工作都)取得了巨大的进展,但持续的不容忍只会让更多美国人采取同样的做法。
得知有5%的男性是同性恋者,并且其中还有很多人并未“出柜”,你或许不会感到震惊。过去曾经有过大多数人都感到震惊的时候,而今也总会有使大多数人感到惊讶的地方。
时任伊朗总统马哈茂德·艾哈迈迪–内贾德在2007年坚称:“我们伊朗不像你们的国家那样有同性恋者。在伊朗没有这种现象。”[17]同样,在2014年俄罗斯索契冬奥会举办之前,索契市长阿纳托利·帕霍莫夫在提到同性恋者时说道:“我们的城市里没有这类人。”[18]互联网行为却体现出索契和伊朗对同性色情的巨大兴趣。[19]
“柜子”不只是幻想的存储库。就性而言,人们保守着许多秘密,比如他们性生活频率如何。[20]
在本书的绪论中,我说过美国人声称他们使用的避孕套数量比每年的销量要多得多。因此,你可能会认为这意味着人们只是在说他们在性生活中使用避孕套的频率比实际情况要高。这一证据表明,他们还夸大了自己过性生活的频率。在15~44岁之间的女性中,约有11%说她们性生活频繁,目前没有怀孕,也没有采取避孕措施。[21]即使是对她们的性行为次数进行相对保守的估计,科学家也可以推测每月有10%的人会怀孕[22],但是这已完全超过全美的怀孕总数(每113名育龄妇女中仅有1人怀孕)。[23]在我们对性如此痴迷的文化中,你很难承认自己的性生活不频繁。
如果你正在寻求理解或建议,那么你就又一次具备了向谷歌透露个人信息的动机。在谷歌上,抱怨配偶之间不想要性生活的频率是抱怨夫妻之间不愿说话的16倍,抱怨未婚情侣之间不想要性生活的频率是抱怨伴侣不回消息的5.5倍。
谷歌搜索为这些无性情侣关系“抓到”了一个令人惊讶的罪魁祸首。抱怨男朋友不肯过性生活的频率是抱怨女朋友的两倍。到目前为止,抱怨男朋友的头号搜索词条是“我的男朋友不愿意和我做爱”。(谷歌搜索没有按性别分类,但是由于之前的分析说过,95%的男性是异性恋者,我们可以猜测,不会有太多“男朋友”搜索来自男性。)
应该如何解读这一现象呢?这是否真的意味着男朋友比女朋友更多地拒绝性行为呢?不一定。正如前文所述,谷歌搜索可能会为人们不敢言之事所左右。相比女性而言,男性向朋友倾诉自己的伴侣不太有“性致”会更加自在。尽管如此,谷歌的数据依然无法说明男朋友拒绝性行为的可能性比女朋友大一倍,但它确实暗示了男朋友拒绝发生性行为的情况比人们说的更普遍。
谷歌的数据也表明,人们频繁地拒绝性行为可能是因为巨大的焦虑,而大部分焦虑都是多余的。先从男性的焦虑说起。男人对自己的性能力心存疑虑已经不是什么新鲜事了,但这种疑虑的程度相当深。
男性搜索自己性器官的次数比其他任何一个身体部位都要多,比搜索肺、肝、脚、耳朵、鼻子、喉咙和大脑的次数加起来还多。男性更多搜索的是如何使他们的阴茎变大,而不是如何给吉他调音、如何做煎蛋卷或如何更换轮胎。对于类固醇,男性在谷歌上最关注的并不是这类物质是否有损于自己的健康,而是服用后是否会影响自己阴茎的大小。在谷歌上,男性最关注的身心状况随年龄增长而变化的问题也是他们的阴茎会不会变小。
旁注:谷歌关于男性生殖器一个比较常见的问题是:“我的阴茎有多大?”男人选择谷歌而不是尺子,这个问题在我看来是数字时代的典型表现。[24]
女人在不在意阴茎的大小呢?从谷歌搜索来看,几乎不会在意。男人大约每搜索170次阴茎,女性才只有1次。诚然,在极少数情况下,女性确实关注伴侣的阴茎,但这种情况往往与其尺寸巨大有关,“小”并不是她们关心的。有超过40%的抱怨都在说伴侣的阴茎太大了。“疼痛”是女性搜索“做爱时……”最常见的补全词,“出血”“撒尿”“哭”“放屁”排在前5位。然而,在查找改变自身阴茎尺寸的搜索中,只有1%的男性在搜索如何使其变小。
男性第二常见的性问题是如何延长自己做爱的时间。男性的不自信感似乎又没和女性的关切对上号。搜索如何使男朋友更快达到高潮和更慢达到高潮的数量几乎相当。事实上,女性关于男朋友高潮最关切的问题并不是什么时候发生,而是为什么根本就没发生过。
当涉及男性时,我们并不经常讨论身体形象的问题。确实,尽管女性的确格外关注自己的个人外貌和形象,却并不像陈旧观念暗示的那么邪乎。根据我对谷歌广告关键词的分析(该网站可以计量人们访问网站的次数),在对美容和美体感兴趣的人中,男性占比42%;在对减肥感兴趣的人中,男性占比33%;在对整容手术感兴趣的人中,男性占比39%。在所有与乳房相关的“如何”形式的搜索中,约20%搜索了“如何解决平胸问题”。
尽管对身体缺乏自信的男性人数比大多数人想象的要多,但女性对自己样貌的不自信程度仍然超过男性。那么,关于女性的自我怀疑,这个数字吐真剂可以为我们揭示出什么呢?在美国,每年有超过700万次隆胸的搜索。官方统计数据告诉我们,每年有大约30万名妇女接受该类手术。
女性对自己的臀部也表现出极大的不自信,尽管近年来很多女性改变了对自己的外貌“挑三拣四”的旧观念。
2004年,在美国的一些地方,关于臀部塑形最常见的搜索是如何使其变小,想要丰臀的搜索大多集中在黑人人口众多的地区。然而,从2010年开始,在美国其他地区,对于丰满臀部的向往越来越强烈。若其自身并非后验分布,这一喜好已在4年内增至原来的三倍。2014年,询问如何使臀部变大的搜索量在每个州都超过了如何使其变小。现在,在美国,每搜索隆胸5次,就有1次丰臀搜索。(感谢金·卡戴珊!)
女性对于更大臀部的偏好是否契合了男性的需求呢?有趣的是,正是这样!相关搜索也曾经集中在黑人社区,而最近却席卷全美。
男人对女人的身体还有什么别的需求呢?如前所述,大多数人会明显发现,男性表现出对大乳房的偏好。大约12%的不同类型色情搜索都有关巨乳,比小乳房色情搜索量多了近20倍。
尽管如此,这并不意味着男性希望女性丰胸。大约3%的大乳房色情搜索明确表示,男性希望看到自然的乳房。
谷歌关于妻子和隆胸的搜索正好分为两部分:一是如何说服她去隆胸,二是苦恼于她为什么想要隆胸。
或者再看看对女朋友乳房最常见的搜索:“我爱女朋友的胸部”。目前还不清楚男性在搜索这一词条时希望从谷歌找到什么。
和男性一样,女性对自己的生殖器也有疑虑。事实上,她们对阴道的疑虑几乎和男性对阴茎的一样多。女性往往担心自己阴道的健康状况,但至少有30%的疑虑涉及其他方面。女人们想要知道如何修剪耻毛、收紧阴道,以及如何改善它的气味。如前文所述,所有女性都惊人地关注同一问题,那就是如何改善阴道的气味。
女性最担心的是她们的阴道闻起来像鱼,以及醋、洋葱、氨气、大蒜、奶酪、狐臭、尿、面包、漂白剂、粪便、汗水、金属、脚、垃圾和烂肉。
一般来说,男性的谷歌搜索中很少包含伴侣生殖器。男性搜索女朋友阴道的次数大约与女性搜索男朋友阴茎的次数相同。
当男性搜索伴侣的阴道时,通常也会抱怨女性最担心的问题:气味。大多数情况下,男性都在设法找一种方法,在不伤到伴侣的情况下,告诉她有一种难闻的气味。然而,有时候男性对气味的疑问却揭示了他们对自己的不自信。男性偶尔会搜索如何使用这种气味来侦察出轨的方法——比如它闻起来像安全套,再如像另一个男人的精液。
我们应该如何理解所有这些不为人知的不自信呢?这里有一些好消息,谷歌给了我们合理的理由无须顾虑那么多。许多源于我们的性伴侣如何看待我们的最深层次的恐惧是说不通的。性伴侣独自一人在自己的电脑上,没有任何说谎的动机,告诉网络他们不肤浅,也很宽容。事实上,我们都忙于关注自己的身体,没有精力去在意别人的。
谷歌性搜索中最受关注的两大问题(缺乏性生活,对自身的性魅力及性能力缺乏自信)之间也可能存在联系,或许两者之间是息息相关的。或许如果我们对性少些担忧、焦虑,反而会有更多鱼水之欢。
关于性,谷歌搜索还能告诉我们别的什么信息呢?我们可以做一个性别间的比拼,看看谁更加慷慨。以所有想办法为异性提供更棒口交体验的搜索为例,寻找窍门的人中是男性更多还是女性更多呢?谁在性方面更加慷慨,男性还是女性?当然是女性。算上所有的可能性,在搜索如何更好地为对方口交方面,我估算男女比例为1∶2。[25]
当男性在寻找口交的小窍门时,他们往往不是在寻找如何让对方满意。男性搜索如何让自己获得更好的口交体验,同时也会搜索如何给女性带来高潮,两项搜索频率相当。(这是我在谷歌搜索数据中发现的我最喜欢的真相。)
性和爱并不是人们总是羞于提起的唯一话题,因此,也不是人们秘而不宣的唯一话题。许多人都有充分的理由保留自己的偏见。我想你可以称之为一种进步——今天,许多人认为,如果他们以种族、性取向或宗教来判断一个人的话,就会遭人唾弃,但许多美国人仍然这样做。(这是本书的另一部分,我必须警告各位读者,这一部分包含令人不悦的内容。)
你会在谷歌上发现这一点,用户有时会问“为什么黑人很粗鲁”或者“为什么犹太人如此邪恶”等问题。表4–2依次是在进行不同族群对应搜索时使用频率前5的负面词汇。[26]
表4–2 不同族群搜索使用频率前5的负面词汇
这些刻板印象中的一些固定模式非常明显。例如,非洲裔美国人是唯一一个被贴上“粗鲁”标签的群体。除了犹太人外,几乎每个群体都是“愚蠢”的受害者。犹太人和同性恋者被视为“罪恶”的代表,而非洲裔美国人、墨西哥人、亚洲人则幸免于难。
看看2015年12月2日在加利福尼亚州圣贝纳迪诺大规模枪击事件后不久发生了什么。当天上午,里兹万·法鲁克(Rizwan Farook)和塔什芬·马利克(Tashfeen Malik)手持半自动手枪与半自动步枪闯入法鲁克同事的会议杀害了14人。那天晚上,媒体首次报道其中一名枪手的名字,听起来像穆斯林。就在几分钟后,相当大一部分加利福尼亚州人对如何处置穆斯林下定了决心:杀了他们。[27]当时在加利福尼亚州有关“穆斯林”的搜索中,搜索量最高的就是“杀死穆斯林”。总的来说,美国人搜索“杀死穆斯林”的频率和搜索“马提尼配方”“偏头痛症状”“牛仔名册”的是相同的。
在圣贝纳迪诺袭击之后的日子里,每有一个美国人关注“伊斯兰恐惧症”,就有另一个人搜索“杀死穆斯林”。在这次袭击前,仇恨搜索大约占到穆斯林相关搜索的20%,而在袭击发生后的几个小时内,超过半数对穆斯林的搜索都带上了仇恨。
这些以分钟为单位的搜索数据可以告诉我们,要平息这种愤怒是多么的困难!袭击发生后的第四天,时任美国总统奥巴马在黄金时段向全国发表了演讲。他向全美保证,政府定会遏制恐怖主义,更重要的是,还会消除这种危险的伊斯兰恐惧症。
奥巴马在谈到包容和容忍的重要性时,一直呼吁人们相信真善美。这番言辞铿锵有力,打动人心。《洛杉矶时报》(Los Angeles Times)对奥巴马所说的“[警告]不要让恐惧影响了我们的判断力”这番话倍加赞扬。《纽约时报》称这个演讲“强硬”而又“平静”。Think Progress网站称赞这番话为“仁政的必要工具,旨在挽救美国穆斯林的生命”。换句话说,奥巴马的演讲被视为一个重大成功,但事实真是如此吗?
谷歌搜索数据显示的却截然不同。我与当时在普林斯顿大学工作的埃文·索尔塔斯(Evan Soltas)一起调查了这些数据。在演讲中,总统说:“所有美国人(不论你的信仰是什么)都有责任拒绝歧视。”在演讲时和结束后短时间内,形容穆斯林为“恐怖分子”“坏的”“暴力的”“罪恶的”的搜索翻了一番。奥巴马还说:“我们有责任拒绝对我们准许进入这个国家的人进行宗教测试。”对于叙利亚难民(一个几乎全由穆斯林组成的,拼命寻找安全避难所的群体)的消极搜索上升了60%,而寻求如何帮助叙利亚难民的搜索下降了35%。奥巴马恳求美国人“不要忘记自由比恐惧更强大”。然而,在其演讲过程中,“杀死穆斯林”的搜索量却增至原来的三倍。事实上,在奥巴马演讲期间和之后,我们可以认为几乎每一项和穆斯林相关的负面搜索都会疯长,几乎每一项正面搜索都会下降。
也就是说,奥巴马似乎说了完全没毛病的话,所有的传统媒体都为奥巴马治愈人心的发言发去贺电,但是来自互联网的新数据(数字吐真剂)则表明这个演讲的效果实际上事与愿违。互联网数据告诉我们,实际上奥巴马的发言并未像人们认为的那样安抚了愤怒的群众,反而点燃了他们心中的怒火。我们认为正在发挥作用的东西可能会呈现与预期效果完全相反的结果。有时我们需要互联网的数据来纠正自我认可的本能。
那么,奥巴马当时应该说些什么才能平复这种目前在美国如此高涨的仇恨情绪呢?这个话题我们稍后再说。我们现在先来看看美国这根由来已久的偏见之脉,仇恨的形式其实已经超越了其他的一切,这是最具破坏性的,也是本书开篇就提到的研究话题。在使用谷歌搜索数据的过程中,我发现关于互联网仇恨最具说服力的一个事实就是“黑鬼”一词的普及。
每年在美国有700万次搜索中包含“黑鬼”一词,要么是单数形式,要么是复数形式。(再说一遍,说唱歌曲中使用的词几乎都是“黑人”,而不是“黑鬼”,所以嘻哈歌词是否计算在内无妨大局。)“黑鬼笑话”的搜索量是“犹太人笑话”“亚洲佬笑话”“西班牙人笑话”“中国佬笑话”“基佬笑话”搜索总量的17倍以上。[28]
什么时候“黑鬼”或“黑鬼笑话”的搜索最常见呢?每当非洲裔美国人出现在新闻上的时候。“卡特里娜”飓风来袭之后,当时电视和报纸展示了在新奥尔良绝望的黑人挣扎求生的图像,那时这样的搜索达到了最高峰。奥巴马第一次当选时,此类搜索也有过暴涨。在马丁·路德·金纪念日,“黑鬼笑话”搜索量平均会上涨约30%。[29]无处不在的种族诋毁使人们对当前种族主义的一些解释产生了怀疑。
任何种族主义理论都必须解释美国当下存在的一大疑惑。一方面,绝大多数美国黑人认为自己深受偏见之苦——在警局、求职面试和陪审团裁决中他们都有充分的证据证明自己受到了歧视;另一方面,很少有美国白人会承认自己是种族主义者。
许多政治科学家最近多半采用的解释是,上述情况在很大程度上是由于隐性偏见普遍存在。该理论认为,美国白人可能心怀好意,但他们潜意识中带有偏见,这影响了他们对美国黑人的态度。学术界发明了一种巧妙的方法来测试这种偏见,名为隐性关联测试。
一直以来,这类测试都显示,对大多数人来说,将黑人面孔与正面词汇(比如“好的”)联系起来要比与负面词汇(比如“糟糕”)联系起来多花几毫秒的时间;而对白人面孔,结果则相反。额外花费的时间就是某人隐性偏见的证据——他甚至都没有意识到这种偏见的存在。
对于非洲裔美国人感受到的这种歧视,白人是矢口否认的,但我们还有另一种解释——隐形显性种族主义。假设有一种刻意的种族主义广为人知,人们意识到了,但绝不承认其存在——当然不是在调查中。这似乎就是搜索数据想要说的。搜索“黑鬼笑话”并没有什么好隐藏的。很难想象,在没有显性种族歧视对黑人的巨大影响情况之下,美国人搜索“黑鬼”一词的频率竟然会和“偏头痛”和“经济学家”相同!在谷歌数据之前,我们没有一个令人信服的方法来应对这种敌意,现在我们有了。我们现在可以看清其中真意了。
正如前文所述,这一偏见解释了为什么奥巴马2008年和2012年的投票总数在许多地区都不客观。一个经济学家团队最近报告,这还与黑人和白人的工资差距有关。[30]我发现搜索种族主义最多的区域往往支付给黑人的工资要少。然后是特朗普的候选人现象。绪论中,民意调查专家纳特·西尔弗在我所开发的种族主义地图中找到了一个地理变量,该变量和2016年共和党初选中特朗普的支持者有密切关系,那就是对“黑鬼”一词的搜索。
最近学者已经将各州对黑人的隐性偏见进行了逐一估量,这使我能够将谷歌搜索估量出的显性种族主义带来的影响和隐性种族偏见进行比较。例如,我测试了两者在奥巴马两次总统选举中产生的副作用。通过回归分析,我发现,要预测奥巴马表现不佳的地区,谷歌网站关于种族主义的搜索能够发挥很大的作用,但隐性种族偏见的相关预测表现欠佳。
为了刺激和鼓励这方面的研究,我提出了以下推论,期待各界学者检验。今天歧视非洲裔美国人的主要原因,其实不是同意参加调查试验的人在消极词汇和黑人之间建立的潜意识联系,而是数百万个美国白人继续做着类似“黑鬼笑话”这样的搜索。
黑人在美国经常遭受的歧视似乎更多地受隐形的显性敌意驱使,但对其他群体而言,潜意识中的偏见可能会产生更为根本的影响。例如,我可以使用谷歌搜索找到对另一部分人群(年轻女孩)隐性偏见的证据。
那么,你可能会问,谁会对女孩怀有偏见呢?
他们的家长。[31]
孩子的家长经常会为自己的孩子有天赋而激动不已,这再正常不过了。事实上,在所有以“我两岁的孩子”开头的谷歌搜索中,最常见的补全词就是“有天赋吗”,但这个问题在孩子的性别上没有均等地体现。家长搜索“我的儿子有天赋吗”的次数比“我的女儿有天赋吗”多2.5倍。在使用其他与智力相关的词汇(比如他们不好意思说出的“我儿子是天才吗”)时,家长也表现出类似的偏见。
是因为家长意识到女孩和男孩之间存在这种差异吗?难道是因为男孩比女孩多用难词或者显得更有天赋吗?不!即便有差别,情况也应该正好相反。小时候,女孩的词汇量总是更大,会使用更复杂的句子。在美国的学校里,女孩进天才班的概率比男孩大9%。[32]尽管如此,家长环顾餐桌时,他们的眼里似乎也只有男孩。[33]事实上,在我测试过的所有与智力相关的搜索词(包括那些暗示智力匮乏的词)中,父母更倾向于搜索他们儿子的情况,而不是女儿。“我的儿子掉队了吗”或“我的儿子笨吗”这类搜索也比与女儿相关的搜索要多得多。相较于带有负面词汇的搜索如“掉队”和“笨”,带有正面词汇的搜索如“有天赋”或“天才”更倾向于和男孩联系在一起。
那么,父母最关心女儿的什么呢?主要是她们的外貌。想想那些关于孩子体重的相关搜索就会明白这一点。父母用谷歌搜索“我的女儿超重吗”这一词条的次数是他们搜索儿子的两倍。相较于儿子,家长有两倍的概率会搜索如何让女儿减肥。正如天赋一样,这种性别偏见并不具有现实基础。大约有28%的女孩超重,而男孩的超重比例却高达35%。[34]尽管超重的男孩比女孩多,但是父母更多地看到或更担心女儿而非儿子超重。
家长问他们的女儿是否漂亮的次数是问儿子是否英俊的一倍半,而问他们的女儿丑不丑的次数更是问儿子丑不丑的三倍!(他们为什么会认为谷歌可以衡量一个孩子的美丑呢?这很难说。)
通常来说,父母似乎更有可能在有关儿子的问题中使用正面的词汇。他们更容易问他们的儿子是否“开心”,不太容易问儿子是否“沮丧”。
自由派读者可能会认为,这些偏见仅在美国保守派地区比较常见,但是我没有找到任何相关的证据可以证明这一点。事实上,我没有发现这些偏见与国家的政治或文化构成有丝毫关联。也没有证据表明这些偏见自2004年谷歌搜索数据首次出现以来有所减少。看起来,这种对女孩的偏见比我们想象的更广泛、更根深蒂固。
人们的传统观念认为并不存在所谓的歧视,而性别歧视并非这种观念的唯一沦陷区。
(网友)Vikingmaiden88 26岁,喜欢读史和写诗,她的个性签名来自莎士比亚的作品。我收集了她在“风暴前线”上的所有个人资料和帖子,还了解到她十分喜欢我供职的《纽约时报》网站上的内容。她曾经写过一篇关于《纽约时报》风格的帖子。
我最近分析了“风暴前线”上数以万计的个人信息,注册会员可以输入他们的家庭住址、出生日期、兴趣和其他信息。[35]
“风暴前线”由前三K党头目唐·布莱克(Don Black)于1995年创立,该网站最受欢迎的“社群”是“国家社会主义者联盟”(Union of National Socialists)与“阿道夫·希特勒的‘粉丝’和支持者”(Fans and Supporters of Adolf Hitler)。根据媒体评测和网络分析公司Quantcast的统计,过去一年中,每月都有20万~40万名美国人访问该网站。最近的一份“南部贫困法律中心”报告称,过去5年里有将近100起谋杀案与“风暴前线”的会员难脱干系。
“风暴前线”的会员和我猜想的完全不同。
他们往往很年轻(至少根据其自报的出生日期来看是这样的)。该网站会员最常见的年龄是19岁,而19岁用户的注册量是40岁用户的5倍。互联网和社交网络用户虽然趋于年轻化,但不会有那么年轻。
个人资料中没有性别选项,但是我查看了所有的帖子和一个美国用户随机样本的完整档案,事实证明,你可以搞清楚大部分会员的性别:我估计“风暴前线”的女性会员大约有30%。
会员比例最高的几个州是蒙大拿州、阿拉斯加州和爱达荷州,这些州以白人居多。这是否意味着在种族相对单一的地区长大更有可能滋生仇恨心理呢?
可能并非如此。确切地说,这些州的非犹太白人的比例较高,所以作为一个攻击犹太人和非白人的群体,“风暴前线”有可能在这些州拥有更多潜在会员。事实上,加入“风暴前线”的目标受众比例在少数族裔人口更多的地区更高。去看18岁及以下的“风暴前线”会员的资料时,这一点尤为真切,因为他们自己无法选择居住地。
在这个年龄组中,加利福尼亚州作为少数族裔人口最多的州,其会员比例远高于25%的全国平均水平。
“支持反犹太主义”(In Support of Anti-Semitism)是该网站上最受欢迎的“社群”之一。加入该社群的成员比例与一个州的犹太人数量呈正相关。犹太人最多的纽约州的成员比例就高于全美平均值。
2001年,(网友)Dna88加入了“风暴前线”,他形容自己是一个“英俊的、具有种族意识的”互联网开发者,30岁,现住在“犹约城”(Jew York City)。在接下来的4个月里,他写了200多篇帖子,比如“犹太人危害人类罪”和“犹太人血钱”,并将人们引导到一个网站,该网站自称是“犹太复国主义犯罪”的“学术图书馆”。
“风暴前线”会员抱怨少数族裔说不同的语言,而且还犯罪。我觉得最有趣的是对“约会市场”竞争的抱怨。
在加拿大前总理提议“加拿大应该保留一个白人国家的特征”之后,一位自称威廉·莱昂·麦肯齐·金(William Lyon Mackenzie King)的人在2003年写道,在看到一个白人女子“带着她那个丑陋的黑人小杂种”的时候,他努力“遏制”着自己的“愤怒”。洛杉矶一名41岁的学生Whitepride26在她的资料里写道:“我不喜欢黑人、拉丁美洲裔,有时甚至包括亚洲人,当男性觉得她们比白人女性更有吸引力的时候尤其如此。”
某些政治事态的发展发挥了作用。迄今为止,“风暴前线”历史上会员数量增幅最大的一天是2008年11月5日,即奥巴马当选总统的次日。然而,在特朗普候选期间,“风暴前线”的会员数量几乎没有变化,只是在他胜选之后有微弱上涨。[36]特朗普乘上了白人民族主义的东风,但没有证据证明是他掀起了一股白人民族主义的浪潮。
奥巴马的当选导致白人民族主义运动的情绪高涨,特朗普的当选似乎是对此做出的回应。
有一件事似乎并不重要:国家的经济状况。包月会员注册量和国家失业率之间毫无关系。“风暴前线”在受“大萧条”影响较大的州的谷歌搜索比例并无任何增长。
也许最令人感兴趣的(也是最令人惊讶的)是“风暴前线”会员聊的一些话题。这些话题同我和朋友谈论的那些话题很相似。也许是我本人太天真吧,我本以为白人民族主义者与我和我的朋友生活在完全不同的世界里,却不料他们一直以来也夸赞《权力的游戏》,也讨论PlentyOfFish和OkCupid等在线交友网站的比较优势。
证明“风暴前线”的用户与我和我的朋友生活在同一个世界的关键事实是:《纽约时报》在“风暴前线”用户中的普及程度。看《纽约时报》网站的并非只有Vikingmaiden88一人,还有很多“风暴前线”的用户。事实上,与访问雅虎新闻网站的“风暴前线”用户进行比较时,你会发现访问纽约时报网(nytimes.com)的“风暴前线”用户数量是访问雅虎新闻网站的两倍。
(发泄)憎恨的网站的会员居然在看如此自由的纽约时报网?这怎么可能?如果有这么多的“风暴前线”会员从纽约时报网得到他们需要的消息,就意味着我们对白人民族主义者的传统看法是错误的,也意味着我们关于互联网如何运作的传统观点是错误的。
大多数人都认为,现如今互联网正使美国人之间日渐疏离,导致大部分人藏匿在网站里,在网上寻找和他们“志同道合”的人。哈佛大学法学院的卡斯·桑斯坦(Cass Sunstein)教授这样描述这种情形:“我们的通信市场正快速(向另一种情形)转变,人们把自己困在自己的世界里——自由派只关注和了解自由派,温和派只关注和了解温和派,保守派只关注和了解保守派,新纳粹只关注和了解新纳粹。”
这一观点是说得通的。毕竟,互联网为我们提供了无限的选择,我们可以借此消费新闻。我想读什么就能读什么,你想读什么就能读什么,网友Vikingmaiden88也一样,想读什么就能读什么。如果对人们不加干涉,他们往往会找寻能证实自己想法的观点。因此,毫无疑问,互联网必然会制造极端的政治隔离。
但是,这个标准观点有一个问题:数据显示它根本就是错的。
马特·根茨科和杰西·夏皮罗这两位经济学家在2011年的一项研究中提供了反对这一传统观念的证据,他们的工作我在前文中已有论述。
根茨科和夏皮罗收集了许多美国人(一个很大的样本)上网行为的数据。他们的数据集还包括受试者(自述的)思想形态:他们认为自己更偏向自由或保守。这两位经济学家使用这一数据估量了互联网上的政治隔离状况。[37]
如何估量的呢?他们做了一项有趣的思维试验。
假设你随机选取了两名恰好在访问同一新闻网站的美国人做样本,其中一人是自由派,那么另一人是保守派的概率有多大?换句话说,自由派和保守派多久会在新闻网站“相遇”一次?
为了进一步思考这一问题,假设自由派和保守派从不在互联网上相同的地方获取网络新闻。换句话说,自由派人士仅仅访问自由派网站,保守派人士仅仅访问保守派网站。若情况果真如此,那么访问某一特定网站的两名美国人持相反政治观点的概率则为零。互联网将被彻底隔离开来,自由派和保守派也永远不会在网上有交集。
相反,假设自由派和保守派获取新闻的方式一致。换句话说,双方访问任何特定的新闻网站的可能性相当。若是这种情况,那么访问某一特定网站的两名美国人持相反政治观点的概率则大约为50%。互联网将不会再有分割,自由派和保守派也完全可能在网上有交集。
那么,数据到底告诉了我们什么呢?根据根茨科和夏皮罗的研究,在美国,访问同一新闻网站的两个人持相反政治观点的概率约为45%。换句话说,相比完全隔离,互联网更接近使双方实现完美交集。自由派和保守派每时每刻都会在互联网上“相遇”。
真正令互联网缺乏隔离性的因素,其实是人们将其比作现实生活其他方面的隔离。根茨科和夏皮罗可以为各种线下的互动重复他们的分析。两个家庭成员持相反政治观点的概率是多少?两个邻居呢?两位同事呢?两位朋友呢?
根茨科和夏皮罗使用美国综合社会调查数据(General Social Survey)发现,以上所有的结果都要比访问同一网站的两个普通人持相反政治观点的概率小(见表4–3)。
表4–3 你遇到的人和你持相反政治观点的概率
换句话说,相比在线下,你更有可能在线上遇到持相反观点的人。
为什么不是互联网更倾向于隔离呢?有两个因素限制了互联网的政治隔离。
首先,可能有点儿出人意料,互联网新闻业是由少数几家大型网站主宰的。我们通常认为互联网会吸引见解偏激的人,但实际上,不论你持何种观点,都能找到属于自己的网站。不管是支持或反对枪支持有的人士,还是雪茄权和美元硬币活动家,抑或是无政府主义者和白人民族主义者,都有自己的网络站点,但是,所有这些网站加起来仅仅占互联网新闻流量的很小一部分。事实上,在2009年,雅虎新闻、美国在线新闻、微软全国有线广播电视公司网(msnbc.com)和美国有线电视新闻网(cnn.com)这4家新闻网站收集了一半以上的新闻评论。雅虎新闻仍然是最受美国人欢迎的新闻网站,拥有每月9 000万的独立访客,几乎是“风暴前线”读者人数的600倍。诸如此类的大众媒体网站受众广泛,政治倾向多元。
其次,很多持强烈政治观点的人都会访问刊登相反观点的网站,哪怕仅仅是为了生气,然后再争论一番。政治迷不会把自己仅仅局限在同他们持相同观点的网站。经常访问极端自由派网站如thinkprogress.org和moveon.org的人,比普通互联网用户更有可能访问右倾网站foxnews.com;同样,经常访问极端保守派网站如rushlimbaugh.com和glennbeck.com的人,比普通互联网用户更有可能访问较为自由的网站nytimes.com。
根茨科和夏皮罗的研究基于2004—2009年的数据,即互联网历史较早时期的数据。有没有可能互联网从那以后越来越分裂呢?社交媒体,尤其是脸谱网,改变了他们最初的结论吗?很显然,如果我们的朋友愿意分享我们的政治观点,那么社交媒体的兴起应该也会像回音室那样回响不断,不是吗?
这一次,事情同样没有那么简单。尽管人们的脸谱网好友更有可能分享他们的政治观点,但一个数据科学家团队[成员包括艾坦·巴克希(Eytan Bakshy)、所罗门·梅辛(Solomon Messing)和拉达·阿达米克(Lada Adamic)]发现人们从脸谱网获取的相当一部分信息来自持相反观点的人。[38]
怎么会这样呢?难道我们的朋友就不分享我们的政治观点了吗?事实上,他们也会分享,但有一个重要原因,即脸谱网可能会引起一场更加多元的政治讨论,而不是线下交友。[39]平均而言,人们的脸谱网好友数量要比线下生活中的朋友多[40],而且这些由脸谱网推动的不牢靠关系更有可能是那些持相反观点的人促成的。[41]
换句话说,脸谱网将我们暴露在不牢靠的社会关系中,例如高中校友、古怪的三表弟,以及你大概、或许、可能认识的朋友的朋友的朋友。你可能永远不会和这些人一起打保龄球或吃烤肉,也可能不会邀请他们参加晚会,但你会在脸谱网上加他们为好友,而且也会查看他们推送的文章链接,尽管这些文章包含你可能从未考虑过的观点。
总之,互联网实际上将持不同政治观点的人汇聚到一起。一位普通的自由派人士可能一早上都和自由派丈夫、儿子待在一起,下午和自由派同事在一起,下班路上见到的也都是自由派汽车贴纸,晚上和瑜伽班的自由派同学一起上课。她回到家后,在美国有线电视新闻网上阅读一些保守派评论,或从共和党高中校友那里得到一个脸谱网链接,这可能就是她一天中最保守的时刻了。
在布鲁克林我最喜欢的咖啡店里,我可能永远不会遇到白人民族主义者,但我和网友Vikingmaiden88都是《纽约时报》网站的常客。
互联网不仅可以让我们洞悉令人不安的态度,而且可以让我们对令人不安的行为有深刻理解。谷歌数据可以有效地提醒我们所有被常见信息来源遗漏的危机。毕竟,当人们陷入麻烦时,就会寻求谷歌的帮助。
想想经济大萧条时期虐待儿童的现象吧。
2007年年末经济大萧条刚露出苗头时,很多专家自然地担心这一现象可能会对孩子造成消极影响。毕竟,很多家长都将压力倍增、情绪低落,而这些都可能是导致虐待行为的主要因素。虐待儿童现象很可能会急剧增长。
紧接着官方数据发布,似乎专家多虑了。儿童保护服务机构称,其接到的虐待儿童案件越来越少,而且案件减少最多的正是那些受经济大萧条影响最严重的州。2011年,宾夕法尼亚大学儿童福利专家理查德·盖利思(Richard Gelles)告诉美国联合通讯社:“这些悲惨的预测并没有实现。”[42]确实,尽管看来有违直觉性,但是虐待儿童现象似乎在经济大萧条时期减少了。
但是,很多成年人因经济大萧条而下岗,心情郁闷,虐待儿童现象真的减少了吗?[43]我很难相信这一点,所以我向谷歌数据寻求查证。
事实证明,有些孩子在谷歌上的搜索很悲惨,让人心痛,例如“我妈妈殴打我”或“我爸爸打我”。这些搜索向我们展示了这一时期与人们料想不同而又令人极度痛心的画面。在经济大萧条期间,这样的搜索数量激增,与失业率密切相关。
我想真实的情况应该是虐待儿童案件的报道量下降了,而不是虐待儿童这一行为减少了。毕竟,估计只有一小部分虐待儿童案件会上报到政府。在经济大萧条期间,很多愿意上报虐待儿童案件的人(如教师和警察)和处理案件的人(儿童保护服务工作者)更有可能过度劳累或失业。
在经济大萧条期间,人们也在尽力上报许多潜在的(虐待儿童)案件,却要面临漫长的等待,最终只好放弃。[44]
的确,有更多证据显示(这次不是来自谷歌),在经济大萧条期间,虐待儿童现象实际上在不断增长,但只有当孩子因被虐待或忽视而死亡时,案件才不得不上报。这种死亡现象虽然很少,但在受经济大萧条冲击最严重的几个州有所上升。
而且,谷歌的一些证据表明,越来越多的人怀疑经济大萧条的重灾区有虐待儿童行为。虐待和忽视儿童问题最严重的几个州在经济大萧条前就占据了全美虐待儿童搜索量的“鳌头”,可这些州在经济大萧条期间的虐待儿童相关搜索量仍然不断增长。失业率每上升一个百分点,“虐待儿童”或“忽视儿童”的搜索率就会上升3%。想必这些人中大多数从来没有成功上报过虐待儿童案件,因为这些州的报告数量下降最多。
受虐儿童的搜索增加,儿童死亡率飙升,在经济重灾区人们质疑虐待儿童现象的搜索激增,但是,案件的上报率在下降。经济大萧条似乎导致了更多的孩子告诉谷歌,他们的父母正在殴打他们,越来越多的人也怀疑自己看到了虐待儿童现象,但负担过重的机构无力处理更多案件。
我认为可以肯定地说,尽管传统的方法没有显示出来,但是经济大萧条的确让虐待儿童的行为更严重了。
现在只要怀疑人们可能会遭受痛苦,我就会向谷歌数据求证。了解这项新数据及其解读方法有很多潜在好处,其中之一便是有可能为弱势群体提供帮助,否则这些人很可能会被当局忽视。
所以,最近,当美国最高法院研究使堕胎更难的法律所产生的效力时,我便向查询数据求助了。我怀疑受这项立法影响的妇女可能会通过谷歌搜索某种终止妊娠的民间方法。[45]她们确实这样做了,而这些搜索在通过限制堕胎法律的州是最多的。
这里的搜索数据有用,但很麻烦。
2015年,在美国,人们通过谷歌网站搜索了超过70万次自行堕胎的方法。相比之下,当年堕胎诊所的搜索量约为340万。这表明,考虑堕胎的妇女中有相当多的人在考虑自己动手。
妇女通过非官方渠道搜索了大约16万次获取堕胎药的方法——“在线购买堕胎药”和“免费堕胎药”。她们向谷歌询问有关欧芹等药物或维生素C的流产效果。大约有4 000人搜索用衣架堕胎的指示说明,其中有1 300次搜索短语“如何用衣架堕胎”。还有几百次搜索是关于通过击打肚子等进行人工流产的。
是什么引起了人们对自行堕胎的兴趣呢?谷歌搜索的地理位置和时间指出了一个可能的原因:当女性很难在法律允许的条件下堕胎时,就会寻求非官方的方法。
2004—2007年,自行堕胎的搜索率相当稳定,2008年年底开始上升,与金融危机和随之而来的经济大萧条如影随形。2011年搜索率猛涨,增长了40%。生育权利组织古特马赫研究所(Guttmacher Institute)将2011年列为美国近期打击流产行为的开始,美国颁布了限制堕胎的92项国家规定。对比发现,加拿大没有对生育权利做强行规定,因此在同一时期也就没有出现自行堕胎搜索率的可对比增长。
谷歌自行堕胎搜索率最高的州是密西西比州,一个有着大约有300万人口的州,现在却只有一家堕胎诊所。古特马赫研究所认为,自行堕胎搜索率最高的10个州中有8个对堕胎持敌视或非常敌视的态度,而自行堕胎搜索率最低的10个州中没有一个持这样的态度。
当然,我们无法从谷歌搜索中得知有多少女性成功自行堕胎,但有证据表明,有相当多的女性可能成功了。有一种方法可以说明这一点,那就是比较堕胎和出生数据。
拥有全美堕胎数据的最后一年是2011年,这一年,生活在堕胎诊所很少的州的女性的合法堕胎行为更是少得可怜。
将10个人均拥有堕胎诊所数量最多的州(包括纽约州和加利福尼亚州)与10个人均拥有堕胎诊所数量最少的州(包括密西西比州和俄克拉何马州)相比,生活在堕胎诊所最少的州的妇女合法堕胎率降低了54%,即每1 000名15~44岁妇女中会出现11次堕胎的情况。生活在堕胎诊所数量最少的州的妇女虽然也多生了一些孩子,但新生婴儿增量不大,仅为每1 000名育龄妇女多生6胎,这个数字并不足以弥补堕胎率下降后应该增加的婴儿数量。
换句话说,在美国最难堕胎的部分地区似乎有一些缺失的怀孕数据。官方消息来源并没有告诉我们在那些难以堕胎的州,每1 000名妇女中那5例缺失的婴儿分娩数据究竟是怎么回事。
谷歌为我们提供了一些很好的线索。
我们不能盲目相信常规数据。常规数据可能会告诉我们,虐待儿童或堕胎已经减少,政治家可能会因此庆祝这一成就,但是,我们认为我们看到的结果可能在数据搜集方法上存在人为的缺陷。事实可能并非如此,有时甚至更黑暗。
总的来说,本书是关于大数据的,但这一章强调最多的是谷歌搜索,我认为它揭示了一个隐秘的世界,这个世界与我们自以为看到的世界截然不同。那么,其他大数据源也揭示了数字吐真剂吗?事实上,像脸谱网这样的大数据源往往与数字吐真剂相反。
在社交媒体上,就像在调查中一样,人们没有说实话的动机,而且人们在社交媒体上树立良好形象的动机远甚于在调查中自我粉饰的动机,毕竟在线表达都不是匿名的。你在讨好关注你的人,也在告诉你的朋友、家人、同事和陌生人你是谁。
想要知道社交媒体的数据偏向性有多强,可以关注备受尊重的学术月刊《大西洋月刊》(Atlantic)和通常哗众取宠的八卦杂志《全国问讯报》(National Enquirer),对比一下两者的受欢迎程度便一目了然了。两种出版物的平均发行量难分伯仲,销售量都有几十万份。[46](《全国问讯报》是周刊,所以其实际销售量更大。)两份杂志在谷歌上的搜索量也是相当的。
然而,在脸谱网上,大约有150万人给《大西洋月刊》点赞,或者在他们的个人主页中讨论《大西洋月刊》上的文章[47],而为《全国问讯报》点赞或讨论其内容的却只有大约5万人(见表4–4)。
表4–4 《大西洋月刊》与《全国问讯报》的流行度比较
想要评估杂志的受欢迎程度,发行量是基本依据。谷歌数据的作用几乎与其相同。脸谱网的数据则对那个小报抱有严重的偏见,这使之成为判断人们真正喜欢什么的最没用的数据。
阅读有偏好,生活同样如此。在脸谱网上,我们展示的是有教养的自我,而不是真实的自我。我在本书,实际上在本章中才使用了脸谱网数据,但我会始终谨记这个忠告。
为了更好地理解社交媒体缺失的部分,我们不妨再回到色情内容这一话题。首先,我们得提一下互联网充斥着淫秽内容这一普遍看法是不正确的。互联网上的大部分内容是无关色情的。例如,访问量最大的十大网站中,没有一个是色情网站。[48]所以,虽然色情网站的人气很高,但不应对其无限夸大。
尽管如此,但是只要仔细想想人们为什么那么喜欢浏览和分享色情内容,就会明白脸谱网、照片墙和推特只提供了一个有限的窗口,人们通过这些媒介并不足以了解互联网上真正受欢迎的事物。如今有大量的网站广受欢迎,但其社会存在感很弱。
有史以来最受欢迎的视频是“鸟叔”朴载相的《江南style》,这是一个讽刺传统韩国人的滑稽流行音乐视频。该视频自2012年推出以来,仅在视频分享网站优兔(YouTube)上的浏览次数就高达约23亿次。无论你访问哪个网站,都可以明显感受到它的流行度。这一视频已经在不同的社交媒体平台上被分享了数千万次。
有史以来最受欢迎的色情视频浏览数已经超过8 000万次。换句话说,《江南style》每受到观看30次,这一色情视频就会播放一次。如果社交媒体能为我们提供准确的视频观看次数,那么这一色情视频的观看次数应该达上百万次,是这个视频只在社交媒体上被分享过几十次,而且分享者主要是色情明星,而非普通用户。人们显然觉得没有必要向朋友宣传他们对这段视频的兴趣。
脸谱网是数字化的(是向我的朋友吹嘘我的生活有多好的)吐真剂。在脸谱网的世界里,一般的成年人似乎都已经结婚了,而且婚姻幸福,在加勒比海度假,阅读《大西洋月刊》;在现实生活中,很多人都在超市付款排队时生闷气,偷偷浏览《全国问讯报》,无视爱人的来电,和枕边人也是多年没有过性生活了。在脸谱网的世界里,家庭生活似乎是完美的;在现实生活中,家庭生活一团糟,甚至有些人偶尔会后悔生下孩子。在脸谱网的世界里,每个年轻人似乎在周六晚上都会参加炫酷的聚会;在现实生活中,大多数人都是独自在家,在网飞(Netflix)网站上看视频狂欢。在脸谱网的世界里,一位女性上传了和男朋友度假时拍摄的26张快乐的照片;在现实生活中,就在发布动态之后,她在谷歌搜索“我的男朋友不愿意和我发生性行为”,也许就在同时,她的男朋友正在观看色情视频。表4–5中罗列了常见的数字真相与数字谎言。
表4–5 数字真相与数字谎言
2006年9月5日凌晨,脸谱网推出了其主页的重大更新。[49]之前的版本只允许其用户点击查询他们朋友的个人资料,了解他们在做什么。该网站当时已有940万名用户,知名度极高。
然而,经过数月的努力,工程师开创了一种名为“消息推送”(News Feed)的功能,这一功能可以为用户呈现其好友更新的全部信息。
随后很多用户反馈,他们讨厌这些消息推送。就读于西北大学的本·帕尔(Ben Parr)发起了“学生抵制脸谱网消息推送”运动,他说:“消息推送太恐怖了,像个跟踪狂似的,必须要取消。”几天之内,就有70万人响应,表示支持帕尔的观点。一位密歇根大学的大三学生告诉《密歇根日报》(Michigan Daily):“我真的要被新脸谱网吃掉了。我觉得自己天天似乎都被一个跟踪狂缠着一样。”
戴维·柯克帕特里克(David Kirkpatrick)在他的个人授权账号上讲述了网站的历史《脸谱网效应:讲述联络世界的公司不为人知的故事》(The Facebook Effect: The Inside Story of the Company That Is Connecting the World)。柯克帕特里克把“消息推送”戏称为“脸谱网面临的最大危机”,但他说,他采访马克·扎克伯格时,作为这家迅速发展的公司的联合创始人兼首席执行官,扎克伯格一点儿也不感到焦虑。
原因是什么呢?因为扎克伯格有数字吐真剂:脸谱网的点击率和浏览量。正如柯克帕特里克所写:
扎克伯格知道,不论人们在群里如何抱怨,他们其实是喜欢消息推送的。他有数据证明这一点。人们浏览脸谱网的平均时间比“消息推送”功能上线之前要多,而且他们在脸谱网上的操作也更多了——多得异乎寻常。8月,用户在服务器上的网页浏览量达到了120亿,而到了10月,也就是消息推送功能上线运行时,浏览量达到了220亿。
这并非扎克伯格所掌握的全部证据,就连反“消息推送”的群体引发的病毒流行都可以证明这项功能影响强大。这个群体之所以能够如此迅速地发展壮大,是因为有相当多的人了解到他们的朋友加入其中,而他们恰恰是通过消息推送这项功能了解到这一点的。
换句话说,人们加入声讨群体,齐声抱怨他们有多么不喜欢在脸谱网上看到朋友的日常生活,可同时他们还是在脸谱网上关注着朋友的生活点滴。消息推送功能依然运行着。脸谱网现在每天有超过10亿的活跃用户。
脸谱网的早期投资者彼得·蒂尔(Peter Thiel)在他的著作《从0到1》(Zero to One)一书中说,伟大的企业是建立在许多秘密之上的,这些秘密要么关乎自然,要么关乎人类。[50]本书第3章就曾提到,杰夫·塞德发现了左心室大小与马匹性能相关联的秘密,谷歌发现了链接中的信息有多强大的秘密。
蒂尔将“人的秘密”定义为“人们对自身尚未知晓的事情或不想为其他人所知而刻意隐藏起来的事物”。也就是说,这类企业其实是建立在人们的谎言之上的。
你可能会认为,扎克伯格根据自己在哈佛大学了解到的有关人类不快乐的秘密,创立了脸谱网的一切。大二刚开学的时候,扎克伯格曾经为他的同学创建一个名为Facemash的网站。这个网站仿照一个名为“我性感吗”的网站,在主页上贴出两名哈佛大学学生的照片,然后让其他学生评价谁更漂亮。
这个大二学生创建的网站引起了人们的愤怒。《哈佛深红报》(Harvard Crimson)在社论版块中指责年轻的扎克伯格是在“迎合人们最糟糕的一面”。西班牙裔与非洲裔美国人群体指控他性别歧视和种族主义。然而,在哈佛大学的相关管理者关闭扎克伯格的网站之前——这个网站才刚刚成立几个小时而已,就已经有450个人浏览了该网站,并对两张照片投票共计22 000次。至此,扎克伯格已经了解到一个重要的秘密:人们会宣称自己很愤怒,也会贬低一些令人厌恶的东西,但他们仍然会点击、浏览。
他还懂得了另一件事:尽管人们对自己的本职工作认真负责,对他人的隐私心怀尊重,但仍会对评价他人的外表怀有极大的兴趣,哈佛大学的学生也不例外。这个短命网站上的观点和投票结果已经告诉他这一点了。后来,因为Facemash备受争议,而他也了解到人们可能会对自己多少认识点儿的人的鸡毛蒜皮很感兴趣,于是着手创建了同时代最成功的公司。
网飞网站在其生命周期伊始就得到了类似的教训:不要相信别人对你说过的话,要看他们做过的事。
起初,该公司允许用户创建一个电影列表,上面列出他们从前计划观看但始终没有时间看的电影。这样一来,一旦他们有了闲暇时间,网飞网站就可以提醒他们观看这些电影了。
然而,网飞网站在数据中发现了一些奇怪的现象——用户一直在不断扩充他们的观影列表,但几天后当用户被提醒观看列表中的电影时,他们却很少点击观看。
问题出在哪里呢?当被问及在未来几天内计划看什么电影时,许多用户会填写一些曲高和寡、立意高远的电影,比如第二次世界大战的黑白纪录片或一些严肃的外国电影。然而,几天之后,他们就想看一些他们平时喜欢看的电影:低俗喜剧片或者浪漫爱情片。人们一直在对自己撒谎。
面对这种差距,网飞网站不再要求人们填写他们未来想看什么,而是根据用户的数百万次点击率和相似用户的意见,着手建立了一个模板。该公司向用户推荐的电影列表,不再基于他们自己填写的内容,而是根据数据推断出他们倾向于哪种类型的电影。结果显示,用户访问网飞网站的频率提高了,观看的电影数量也更多了。
曾在网飞公司做数据科学家的泽维尔·阿乌特里亚因(Xavier Amatriain)说:“系统算法比你更了解你自己。”[51]表4–6展示了不理会别人所言的巨大价值。
表4–6 不理会别人所言的巨大价值
你可能会发现本章的某些部分很压抑。数字吐真剂揭示了一直以来人们都倾向于依据人的外表来做出评判的真相,仍然有数百万名同性恋者不敢公开自己的性取向,幻想强暴之类事情的女性占有相当高的比例,非洲裔美国人仍然遭受着普遍的敌意,虐待儿童和自行堕胎危机隐藏不露,等等。这些大多是令人不快的消息。通常情况下,在我对自己的研究做完报告之后,人们会走过来对我说:“赛思,这事特别有趣,但是太压抑了。”
我不能假装这些数据中没有一丝黑暗。人们总是猜想我们想听到什么,如果他们一直根据这些猜想告诉我们一些事情,那么通常我们听到的事情会比实际情况更让人安心。一般来说,数字吐真剂会告诉我们,世界比我们想象的更糟糕。
我们需要了解这一点吗?在了解到谷歌搜索、色情数据和哪些人点击哪些内容后,你可能不会觉得“这太棒了,我们可以了解自己是什么样的人了”,相反,你会认为“这太可怕了,我们竟然是这样的人”。
但这一真相是有帮助的——受益者远不止马克·扎克伯格及其他希望增加点击量或客户数量的人。这个真相至少可以通过三种方式改善我们的生活。
首先,人们可以获得安慰,你会知道你并不孤单,缺乏自信或手足无措的不止你一个人。知道别人对他们自己的身体不自信或许是件好事。了解到不是人人都像兔子那样私通和随意交配对大多数人来说是有益的,对那些没有多少性经验的人而言尤其如此。对密西西比州一个暗恋四分卫球员的高中男生来说也可能是有价值的,尽管周围公开“出柜”的男同性恋者人数很少,但至少他知道很多人与他有相同的感觉。
其次是我未曾讨论过的一个方面,谷歌搜索可以让你了解到其实自己并不孤单。小时候,老师可能会告诉你,如果你有问题,你应该举手提问,因为如果你感到困惑,其他人也是一样。如果你像我一样,就会忽视老师的建议,默默地坐在那里,害怕张开嘴。你觉得自己的问题太愚蠢了,其他所有人的问题都比你的深刻。谷歌的匿名汇总数据可以一次性清楚地告诉我们老师的话是多么正确,其他人的脑海里也潜藏着许多不够深刻的低水平问题。
可以参考一下奥巴马2014年发布《国情咨文》过程中,美国人最关心的几个问题(见表4–7)。[52]
表4–7 想知道答案的不止你一人:《国情咨文》发布过程中的谷歌高频问题
现在,你读到这些问题时可能还会认为这些人在诟病美国的民主。人们更关心的是某个人的领带颜色或他的肤色,而不是总统先生的讲话内容,可我们还没有好好反思这一点。不知道美国时任众议院议长的约翰·博纳是何许人,也不能说明我们的政治参与度如何。
我更愿意思考一些能够体现我们老师智慧的问题,这类问题人们通常是不会问的,因为它们听起来太蠢了,但是很多人都会有这样的疑问,而后就会用谷歌进行搜索。
事实上,我认为大数据更新了21世纪一句关于自立的名言:“永远不要以你的内心去忖度别人的外在。”大数据可以将其更新为:“永远不要以你的谷歌搜索去忖度别人在社交平台上的言论。”
例如,将人们在公共社交媒体和匿名搜索中描述丈夫的方式进行比较(见表4–8)。
表4–8 人们描述自己丈夫的高频方式
由于我们看到的是别人的社交媒体帖子,而不是他们的搜索,所以往往会高估有多少女性一直认为她们的丈夫是“最好的”“最棒的”“太可爱了”,而倾向于弱化女性对她们丈夫“一个浑蛋”“恼人”“刻薄吝啬”这类负面评价。[53]通过分析和汇总匿名数据,我们或许都能明白,我们并不是唯一发现婚姻不幸、生活不易的人。我们可能要学着停止将我们的搜索与其他人的社交媒体帖子进行比较。
数字吐真剂的第二个好处是,它能提醒我们哪些人在受苦。人权运动组织(Human Rights Campaign)曾邀请我一起共事,帮助他们在一些州鼓励和引导男同性恋者“出柜”。人权运动组织的工作人员计划使用谷歌的匿名汇总搜索数据帮助他们准确锁定目标资源。同样,儿童保护服务机构也曾联系过我,想要了解美国哪些地区的虐童事件可能远多于他们现有的记录。
也曾有人就一个令人惊讶的话题(阴道气味)联系过我。首次在《纽约时报》及其他所有地方提及此事时,我都是持讽刺的态度。这个版块让我和其他人乐不可支。
然而,我后来对一些信息版进行了研究。只要有人进行相关搜索,这些信息版就会出现,其中包括许多年轻女孩的帖子,她们认为因为担心阴道气味,自己的生活也被毁掉了。这不是开玩笑。不少性教育专家都曾联系过我,询问如何才能充分利用互联网数据减轻年轻女孩的担忧。
尽管所有这些问题都很严重,也都让我觉得自己有些力不从心,但我相信数据科学可以助一臂之力。
数字吐真剂的最后一个(也是我个人认为最强大的)价值,其实是它会告诉我们如何解决问题。有了更多了解之后,我们可能会找到一些方法来减少这个世界存在的各种恶劣态度。
比如可以运用搜索数据来了解引起仇恨的原因或者减少仇恨。例如,我们可以看看一个城市在起草黑人可以做橄榄球四分卫的法案之后,网上关于种族主义的搜索量是如何变化的;在女性当选为官员后,性别主义的相关词汇搜索量有什么变化。我们可以看到种族主义与社区配备警察制度的相关性,或性别歧视和关于性骚扰的新法律条例之间的关系。
了解我们潜意识里的偏见也是有用的。例如,我们可能都会因此而懂得如何用心使小女孩们感到快乐,而且表现得不那么在意她们的外表。谷歌搜索数据和互联网上的其他真相,让我们可以以一种前所未有的眼光去审视人类心灵最黑暗的角落。我承认有时候这的确很难面对,但它也赋予我们力量,我们可以使用这些数据来对抗黑暗。收集关于世界性问题的丰富数据是修复、解决这些问题的第一步。
[1] Hugh J. Parry and Helen M. Crossley,“Validity of Responses to Survey Questions,”Public Opinion Quarterly 14, 1 (1950).
[2] Frauke Kreuter, Stanley Presser, and Roger Tourangeau,“Social Desirability Bias in CATI, IVR, and Web Surveys,”Public Opinion Quarterly 72(5), 2008.
[3] 有文章认为,在试图预测特朗普支持率方面,撒谎可能会带来问题,参见Thomas B. Edsall,“How Many People Support Trump but Don’t Want to Admit It?”New York Times, May 15, 2016, SR2。另一篇文章则认为,撒谎不会成为主要影响因素,参见Andrew Gelman,“Explanations for That Shocking 2% Shift,”Statistical Modeling, Causal Inference, and Social Science, November 9, 2016,http://andrewgelman.com/2016/11/09/explanations-shocking-2shift/。
[4] 2015年5月5日,我通过电话采访了罗杰·图朗若。
[5] 这一讨论参见Adam Grant, Originals: How Non-Conformists Move the World (New York: Viking, 2016)。最初来源于David Dunning,Chip Heath, and Jerry M. Suls,“Flawed Self-Assessment: Implications for Health, Education, and the Workplace,”Psychological Science in the Public Interest 5 (2004)。
[6] Anya Kamenetz,“‘Mischievous Responders’ Confound Research on Teens,”nprED, May 22, 2014, http://www.npr.org/sections/ed/2014/05/22/313166161/mischievous-responders-confoundresearch-on-teens. 本文论述的初始研究可参见Joseph P. Robinson Cimpian,“Inaccurate Estimation of Disparities Due to Mischievous Responders,”Educational Researcher 43, no. 4 (2014)。
[7] https://www.google.com/trends/explore?date=all&geo=US&q=porn,weather.
[8] Amanda Hess,“How Many Women Are Not Admitting to Pew That They Watch Porn?”Slate, October 11, 2013, http://www.slate.com/blogs/xx_factor/2013/10/11/pew_online_viewing_study_percentage_of_women_who_watch_online_porn_is_growing.html.
[9] Nicholas Diakopoulus,“Sex, Violence, and Autocomplete Algorithms,”Slate, August 2, 2013, http://www.slate.com/articles/technology/future_tense/2013/08/words_banned_from_bing_and_google_s_autocomplete_algorithms.html.
[10] 我估计,包括各种只言片语在内,美国人每个月明确表示他们后悔生了孩子的谷歌搜索约为1 730条。与此相对,只有大约50条搜索对没有孩子表示遗憾。在美国,45岁以上的人中大约有1 590万人没有孩子,而有孩子的美国人数为1.52亿,这就意味着,在符合条件的人群中,有孩子的人在谷歌网站上表示后悔生孩子的可能性是没有孩子的人在谷歌网站上表示后悔没有生孩子的3.6倍。当然,值得再次强调的是,这些在谷歌表示后悔的只是小部分人——很可能是那些感觉懊悔不已,一时忘记谷歌也救不了自己的人。
[11] 这些预估都来自Nate Silver,“How Opinion on Same-Sex Marriage Is Changing, and What It Means,” Five Thirty Eight, March 26, 2013,http://fivethirtyeight.blogs.nytimes.com/2013/03/26/how-opinionon-same-sex-marriage-is-changing-and-what-it-means/?r=0。
[12] 笔者对脸谱网广告数据的分析。我未将同时列出“男性和女性”的脸谱网用户计算在内。我的分析表明,表示对男性和女性都感兴趣的用户,有相当一部分将其解释为友情而非爱情。
[13] “出柜”,指男同性恋者公开自己的同性性取向。——编者注
[14] 即便是玩笑话,有些人仍可能会觉得这是一种冒犯,因为我把男性对朱迪·嘉兰的喜爱同与男性发生性关系的偏好联系起来。我当然不是想暗指全部或大多数男同性恋者都十分迷恋乐坛“天后”,但搜索数据表明,这种固有的观念是真实确切的。据我估算,一名搜索朱迪·嘉兰信息的男性搜索同性色情片的可能性是其搜索异性色情片的三倍。大数据告诉我们一些固有的观念是真实的。——作者注
[15] 如前所述,谷歌趋势不会按性别细分搜索。谷歌广告关键词会按性别细分各种类别的网页浏览量,但是这些数据的精确度很低。为了按性别估算搜索量,我首先使用了搜索数据来获得各州对同性色情搜索百分比的全州估算量。其次,我通过谷歌广告关键词的性别数据对此数据进行规范化处理。获取性别特定数据的另一种方法是使用色情网站数据。不过,色情网站算是一个被精心挑选过的样本,因为许多同性恋者可能会使用以同性色情为主的网站。色情网站表示,男性同性色情内容搜索量少于谷歌的搜索结果,但是,它证实了对同性恋的容忍与对男性同性色情内容的观看之间没有很密切的关系。所有这些数据和进一步说明可在我的个人网站sethsd.com中的“Sex”(性)板块找到。
[16] 笔者对脸谱网广告数据的计算:2017年2月8日,来自旧金山、奥克兰、圣何塞的约300名高中男生在脸谱网上表示他们对男性感兴趣,大致有7 800名高中男生表示他们对女性感兴趣。
[17] “‘We Don’t Have Any Gays in Iran,’ Iranian President Tells Ivy League Audience,” Daily Mail.com, September 25, 2007, http://www.dailymail.co.uk/news/article-483746/We-dont-gays-IranIranian-president-tells-Ivy-League-audience.html.
[18] Brett Logiurato,“Sochi Mayor Claims There Are No Gay People in the City,”Sports Illustrated, January 27, 2014.
[19] 根据谷歌广告关键词,俄罗斯每年有成千上万次对同性色情的搜索。在索契和美国,对同性色情的色情搜索百分比大致相同。谷歌广告关键词中没有伊朗的数据,色情网站也没有报告伊朗的数据。然而,色情搜索引擎研究了伊朗人的搜索数据,并称伊朗十大色情搜索词中有5个是同性色情搜索。根据谷歌趋势数据,伊朗大约有2%的色情搜索是针对同性色情内容的,这一比例低于美国,但仍然表明该国对同性色情的广泛兴趣。
[20] Stephens-Davidowitz,“Searching for Sex.”这部分数据可以在我的个人网站sethsd.com中的“Sex”板块找到。
[21] Current Contraceptive Status Among Women Aged 15–44: United States, 2011–2013, Centers for Disease Control and Prevention,http://www.cdc.gov/nchs/data/databriefs/db173_table.pdf#1.
[22] David Spiegelhalter,“Sex: What Are the Chances?” BBC News,March 15, 2012, http://www.bbc.com/future/story/20120313-sex-inthe-city-or-elsewhere.
[23] 15~44岁的女性有6 200万人,每年大约有660万人怀孕。
[24] 我本想给这本书起名叫《我的阴茎有多大?谷歌搜索告诉我们人性究竟为何物》,但是我的编辑提醒我,这样的话书可能很难卖出去。在机场书店,人们可能会因这样的标题而感到难为情,从而放弃买这本书。各位,赞同这一观点吗?——作者注
[25] 如文中所述,我不知道谷歌搜索者的性别。我的假设基于绝大多数人都是异性恋者,而且对于如何在性生活上取悦同性伴侣的搜索确实比较少。
[26] 笔者对谷歌广告关键词数据的分析。
[27] Evan Soltas and Seth Stephens-Davidowitz,“The Rise of Hate Search,”New York Times, December 13, 2015, SR1.数据和更多细节可参阅我的个人网站sethsd.com中的“Islamophobia”(伊斯兰恐惧症)板块。
[28] 笔者对谷歌趋势数据的分析。
[29] 笔者对谷歌趋势数据的分析。
[30] Ashwin Rode and Anand J. Shukla,“Prejudicial Attitudes and Labor Market Out-comes,” mimeo, 2013.
[31] Seth Stephens-Davidowitz,“Google, Tell Me. Is My Son a Genius?”New York Times, January 19, 2014, SR6. 精确搜索的数据可以用谷歌广告关键词搜索到,估测结果也可在谷歌趋势中搜索“有天赋的”和“儿子”对比“有天赋的”和“女儿”获得,比如以下对比:https://www.google.com/trends/explore? date=all&geo=US&q=gifted%20son, gifted%20daughter和https: //www.google.com/trends/explore?date=all&geo=US&q=overweight%20son,overweight%20 daughter。在这些关于儿子大脑和女儿身体的一般性搜索中有一个例外,那就是“胖儿子”比“胖女儿”的搜索更多。这似乎与前面讨论的乱伦色情的流行有关。大约20%的搜索词“胖”和“儿子”也包含“色情”一词。
[32] “Gender Equity in Education: A Data Snapshot,” Office for Civil Rights, U.S. Department of Education, June 2012, http://www2.ed.gov/about/offices/list/ocr/docs/gender-equity-in-education.pdf.
[33] 为了进一步检验家长对男孩和女孩加以区别对待的假设,我正在从育儿网站搜索数据。这些数据将囊括更多家长,不仅限于那些进行具体搜索的家长。——作者注
[34] Data Resource Center and Adolescent Health,http://www.childhealthdata.org/browse/survey/results?q=2415&g=455&a=3879&r=1.
[35] Stephens-Davidowitz,“The Data of Hate.”相关数据可在我的个人网站sethsd.com中标名为“Stormfront”的数据区下载。
[36] 2016年10月,谷歌搜索对“风暴前线”的搜索热度与2015年10月时持平。这与奥巴马首次大选期间的情况形成鲜明对比。与2007年10月相比,2008年10月谷歌搜索对“风暴前线”的搜索热度提高了近60%。在奥巴马当选的次日,在谷歌搜索“风暴前线”的人数增加了约10倍。在特朗普当选后的次日,“风暴前线”的搜索量增加了约2.5倍。这大致相当于小布什在2004年当选后次日的增加量,也在很大程度上反映了政治狂热分子的新闻趣味点。
[37] Matthew Gentzkow and Jesse M. Shapiro,“Ideological Segregation Online and Offline,”Quarterly Journal of Economics 126, no. 4(2011).
[38] Eytan Bakshy, Solomon Messing, and Lada A. Adamic,“Exposure to Ideologically Diverse News and Opinion on Facebook,”Science 348, no. 6239 (2015). 他们发现,在脸谱网上公开个人意识形态的9%的活跃用户中,大约有23%有着与其意识形态相反的好友,他们在脸谱网上看到的28.5%的消息分享自意识形态相反的好友。这些数据与政治隔离的其他数据无法直接比较,因为它们只包括公开其意识形态的脸谱网用户的小样本。这些用户更有可能在政治上表现得较为活跃,并与具有相同意识形态的其他政治活跃用户保持联系。如果这一说法是正确的,那么所有用户之间的差异将会更大。
[39] 使社交媒体出现惊人差异的另一个因素是,无论政治倾向如何,它都会为极受欢迎和广泛分享的文章带来巨大的收益。参见Solomon Messing and Sean Westwood,“Selective Exposure in the Age of Social Media: Endorsements Trump Partisan Source Affiliation When Selecting News Online,” 2014。
[40] 参见Ben Quinn,“Social Network Users Have Twice as Many Friends Online as in Real Life,”Guardian, May 8, 2011。本文讨论了2011年囊性纤维化信托基金会的一项研究,该研究发现,普通社交网络用户有121个在线好友、55个现实好友。根据皮尤研究中心(Pew Research)2014年的一项研究,脸谱网用户平均拥有超过300个朋友。参见Aaron Smith,“6 New Facts About Facebook,” February 3, 2014, http://www.pewresearch.org/facttank/2014/02/03/6-new-facts-about-facebook/。
[41] Eytan Bakshy, Itamar Rosenn, Cameron Marlow, and Lada Adamic,“The Role of Social Networks in Information Diffusion,”Proceedings of the 21st International Conference on World Wide Web, 2012.
[42] “Study: Child Abuse on Decline in U.S.,” Associated Press,December 12, 2011.
[43] 参见Seth Stephens-Davidowitz,“How Googling Unmasks Child Abuse,”New York Times, July 14, 2013, SR5和Seth Stephens Davidowitz,“Unreported Victims of an Economic Downturn,”mimeo, 2013。
[44] “Stopping Child Abuse: It Begins With You,”The Arizona Republic, March 26, 2016.
[45] Seth Stephens-Davidowitz,“The Return of the D.I.Y.Abortion,”New York Times, March 6, 2016, SR2.数据和更多细节可参阅我的个人网站sethsd.com中的“Self-Induced”(自行堕胎)板块。
[46] Alliance for Audited Media, Consumer Magazines, http://abcas3.auditedmedia.com/ecirc/magtitlesearch.asp.
[47] 笔者于2016年10月4日用脸谱网广告管理器计算得出。
[48] “List of Most Popular Websites,” Wikipedia. 根据跟踪浏览行为的互联网公司Alexa的统计,前10名依次是谷歌、优兔、脸谱网、百度、雅虎、亚马逊、维基百科、腾讯QQ、谷歌印度和推特。
[49] 这个故事出自David Kirkpatrick, The Facebook Effect: The Inside Story of the Company That Is Connecting the World (New York:Simon & Schuster, 2010)。
[50] Peter Thiel and Blake Masters, Zero to One: Notes on Startups, or How to Build the Future (New York: The Crown Publishing Group,2014).
[51] 2015年5月5日,我对泽维尔·阿乌特里亚因进行了电话采访。
[52] 笔者对谷歌趋势数据的分析。
[53] 我分析了推特的数据。感谢埃玛·皮尔逊(Emma Pierson)帮忙下载。表格中没有关于丈夫正在做什么的话题,这在社交媒体帖子中很流行,但并未体现在搜索数据上,而且通常这些描述都是褒扬的。现在社交媒体上对此话题最高频的描述方式是“工作”和“烹饪”。——作者注
我弟弟诺厄(Noah)比我小4岁。很多人第一次见到我们时,都会觉得我俩实在太像了(图5–1是我俩的照片)。我们说话声音都很大,同样脱发,而且都很难保持房间整洁。
我们也有不同之处:我花钱精打细算,诺厄却只买最好的。我喜欢伦纳德·科恩和鲍勃·迪伦(Bob Dylan),而诺厄喜欢的则是“蛋糕”乐队(Cake)和贝克乐队(Beck)。
也许我们之间最显著的差别就是我们对棒球的态度。我痴迷棒球,尤其钟爱纽约大都会队,这一直以来也算是我主要的身份标签;诺厄则认为棒球无聊至极,对这项运动深恶痛绝一直是他重要的身份标签。[1]
图5–1 我和我的弟弟
住在同一座城市、父母相同、基因类似的两个人,对棒球的态度为什么会如此天差地别呢?是什么决定了我们成为什么样的成年人?更根本的问题是,诺厄怎么了?发展心理学中有一个正在迅速发展的领域,该领域挖掘出大量的成人数据库,并将它们与关键的童年事件联系起来,它可以帮助我们解决这一问题和相关的疑问。我们可以将这种越来越多地运用大数据来回答心理学问题的领域称为“大心理学”(Big Psych)。
为了了解大心理学的工作原理,一起来看看我曾做过的一项研究吧——童年经历会对你支持哪支棒球队(或者你是否支持任何球队)产生何种影响。[2]在这项研究中,我使用了脸谱网上带有“喜欢”某一棒球队标签用户的数据。[上一章中,我注意到脸谱网数据可能会在敏感话题上产生严重误导。在这项研究中,我认为没有谁会(哪怕是一个费城球迷也不会)因在脸谱网上承认自己对某个球队的喜爱而感到难为情。]
我下载了“喜欢”纽约两支棒球队的每个年龄段的男性数量。图5–2是按出生年份计算的大都会队球迷的百分比。
图5–2 喜欢纽约大都会队的男性比例(按出生年份计算)
百分点越高,该年出生的大都会队球迷就越多。纽约大都会队在1962年和1978年出生的人群中很受欢迎,球队的人气也随之产生波动起伏。我猜想棒球迷们可能会知道这里发生了什么。大都会队只在1969年和1986年赢过两次世界职业棒球大赛。大都会队获胜时,这些人7~8岁。因此,对大都会队球迷(至少对男孩)来说,一个重要的猜测就是大都会队是否在他们七八岁的时候赢得了世界职业棒球大赛的冠军。
事实上,我们可以进一步扩展这个分析。我从脸谱网上下载了一些信息,这些信息表明美国职业棒球大联盟里的每支球队在各个年龄段分别有多少球迷“喜欢”它们。
我发现,1962年出生的巴尔的摩金莺队球迷和1963年出生的匹兹堡海盗队球迷的数量也多得异乎寻常。这两支球队夺冠时,这些球迷还都是8岁的孩子。实际上,我计算了所有我研究过的球队的巅峰时期,然后计算出了这些球队球迷当时的年龄,得出图5–3。
图5–3 球队夺冠时儿童球迷的年龄与其成年后成为“死忠粉”的概率之间的关系
我们再一次看到,决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年。总体而言,男孩在5~10岁时最容易喜欢一支球队。球迷决定要支持哪支球队时,球队在他8岁时夺冠要比在他19岁或20岁时夺冠重要8倍,因为到那时,他要么已经终其一生都喜爱那支球队,要么就一点儿都不喜欢了。
你可能会问,女棒球迷呢?这种模式对女棒球迷则不那么明显,但是女性喜爱一支球队的高峰年龄似乎是22岁。
这是我最喜欢的一项研究。它涉及两个我最喜爱的话题:棒球和我成年后不满情绪的来源。我从1986年开始对棒球非常着迷,一直在苦苦支持纽约大都会队。诺厄有先见,4年后才出生,因此并没有像我一样受罪。
现在,棒球并不是世界上最热门的话题,我的博士生导师们也反复向我强调这一点,但是这种方法可能会帮助我们解决类似的问题,比如人们如何培养自己的政治偏好、性取向、音乐品位和理财习惯。(我可能对我弟弟关于后两个问题的古怪想法的由来感兴趣。)我猜测,人们会发现自己成年后的很多行为、兴趣乃至那些被视为关乎人性的东西,都能用我们出生的年份发生的随机事件和我们小时候的某些关键年份发生的事情来解释。
事实上,政治偏好的由来分析已经有了一些进展。数据分析公司Catalist的首席科学家亚伊尔·吉察(Yair Ghitza)和哥伦比亚大学的政治学家兼统计学家安德鲁·格尔曼(Andrew Gelman)曾经试图测试传统观念——大多数人一开始都支持自由派,但会随着年龄的增长变得越来越保守。这就是丘吉尔常引用的一句名言:“弱冠之年而不轻狂壮志者,非有心也;不惑之年而不稳重内敛者,非有智也。”
吉察和格尔曼研究了60年的调查数据,采用了30多万个投票偏好的观察结果。他们发现,与丘吉尔的说法正相反,青少年有时偏向自由,有时又偏向保守。中年人和老年人也是如此。
这些研究人员发现,政治观点的形成与我们对体育球队的偏好并没有什么不同。人的一生中有一段重要时期,即14~24岁,很多美国人会依据现任总统的受欢迎度形成自己的政治观点。若现任总统是位人气颇高的共和党人或不得人心的民主党人,很多年轻人便会深受影响,成为共和党人;反之,若现任总统是位不受欢迎的共和党人或深得民心的民主党人,那这个易受影响的群体又会倒向民主党阵营。
总的来看,在这一关键时期形成的这些观点会持续一辈子。
要弄清楚这是怎么一回事,将出生于1941年和10年之后出生的美国人做一比较便一目了然了。
第一个群体的那些人是在艾森豪威尔总统任期内长大的,艾森豪威尔是一位颇受欢迎的共和党人。20世纪60年代初,尽管这群“40后”当时还不到30岁,却强烈倾向于共和党。随着年龄的增长,他们对共和党的支持始终坚定。
10年之后(即“婴儿潮一代”)出生的美国人,则经历了好几任总统,包括非常受欢迎的民主党人肯尼迪、一开始很受欢迎的民主党人约翰逊与最终引咎辞职的共和党人尼克松。这群“50后”中很多人一生都倾向于自由派。
有了这些数据,研究人员就可以判断人们确立政治观点最重要的一年:18岁。[3]
他们发现这些不可磨灭的印迹影响巨大。根据模型估计,艾森豪威尔任职期间,美国1941年出生的共和党人提高了10个百分点。肯尼迪、约翰逊和尼克松则为1952年出生的民主党人带来了7个百分点的增势。
我曾明确表示,我对调查数据持怀疑态度,但这里审查的大量答复给我留下了深刻印象。事实上,一项小小的调查并不足以完成这项研究。研究人员需要从大量调查中搜集数以万计的观察数据,以此来观察人们的政治偏好如何随年龄的增长而变化。
数据大小对我的棒球研究也至关重要。我不仅要关注每支球队的球迷,而且要研究每个年龄段的人。这样做需要数百万的观察数据,我通常从脸谱网和其他数据源搜集这类数据。
这就是大数据的规模之大真正发挥作用的地方。在照片中你需要很高的像素,方能清晰地放大照片的一小部分。同样,你也需要在数据集中进行大量的观察,方能清晰地放大数据的一小部分——例如,大都会队在1978年出生的美国人中受欢迎程度如何。对几千人进行的一项小型调查不会得到这么充分的大样本。
这就是大数据的第三大功能:它使我们能够对数据集的一小部分进行有意义的放大,从而获得有关人性的新见解。除年龄外,我们还可以放大其他维度。如果有足够的数据,我们就能了解在特定城镇和城市的人们如何做事,也可以了人们在一小时乃至一分钟内的生活状态。
本章将会着重描写人类行为。
事后看来,这事着实令人吃惊,但时任哈佛大学教授的拉杰·切蒂(Raj Chetty)和一个很小的研究团队的确率先掌握了一个相当大的数据集——所有美国人自1996年以来的纳税记录,他们并不确定会从中发现什么。美国国税局已经将这些数据转交给他们,因为他们认为这些研究人员或许能够利用这些数据帮助他们澄清税收政策的作用。
事实上,切蒂及其团队最初使用这些大数据的几次尝试都走进了死胡同。他们调查了各州和联邦税收政策的影响,结论与其他所有人通过调查得出的结论基本一致。或许切蒂通过使用数以亿计的美国国税局数据得出的答案更加精确一点,但仅仅是更精确一点,结论与所有人的都相同,这并不算什么重大的社会科学成果。顶尖期刊急于发表的并不是这类研究成果。
此外,整理和分析所有的国税局数据非常耗时。切蒂及其团队沉迷于数据,得出的结论与其他所有人一样,花费的时间却更长。
看起来大数据怀疑论者是对的。理解税收政策并不需要数亿美国人的数据,一项万人调查就足够了。因此,切蒂和他的团队很沮丧是可以理解的。
最终,研究人员意识到了他们的错误。切蒂解释说:“除了有更多的数据外,大数据能完成的任务绝不仅仅是通过那些调查就能做的事。”[4]当时他们正在就已经搜集到的海量数据提出一些小数据问题。“大数据真的可以让你采用完全不同于参与调查的做法。”切蒂补充说,“比如,你可以放大地理位置。”
换句话说,有了数亿人的数据,无论大小,切蒂及其团队都能够发现城市、小镇和社区之中存在的模式。
切蒂报告自己使用全体美国人的纳税记录得出初步结果的时候,当时还是哈佛大学研究生的我在一间研讨室里聆听了他的陈述。社会科学家将他们的工作称为观测,即他们有多少个数据点。如果一名社会科学家正在针对800人进行一项调查,他就会说:“我们有800份观测数据。”如果他正在进行一项有70人的实验室实验,他会说:“我们有70份观测数据。”
切蒂绷着脸说:“我们有12亿份观测数据。”听众却神经质地咯咯直笑。
切蒂和他的合著者在那间研讨室里以及之后的一系列论文中,向我们提出了有关美国如何运作的重要新见解。
想想这个问题:美国是一个充满机遇的国家吗?如果你的父母不富裕,你自己还有机会发财吗?
要回答这个问题,传统的方法是观测一个美国人的代表性样本,然后与其他国家的类似数据进行比较。
表5–1是各个国家关于机会平等的数据。问题是:如果父母处于收入分配最底层的20%,那么孩子长大后进入收入分配前20%的概率有多大?
表5–1 出身贫穷的人变富的概率(部分国家)
正如你所见,美国的得分并不高。
但是,这个简单的分析忽略了真实的情况。切蒂的团队放大了地理位置。他们发现,概率的大小取决于你出生在美国的什么地方(见表5–2)。
表5–2 出身贫穷的人变富的概率(美国部分地区)
在美国的一些地区,一个穷人家孩子成功的机会和世界上任何一个发达国家的一样大。在其他地方,这样的机会却比世界上任何一个发达国家的都要小。
这种模式绝不会在一项小型调查中出现,小型调查也许只包含夏洛特和圣何塞两地有限的几个人,因此你也无法像大型数据分析那样对样本进行放大研究。
事实上,切蒂的团队可以进一步放大数据,因为他们有足够多的数据(每一个美国人的数据),他们甚至可以放大从一个城市搬到另一个城市的小群体,以查看以下情况如何影响搬迁者的前途:那些人从纽约搬到洛杉矶、从密尔沃基搬到亚特兰大、从圣何塞搬到夏洛特。这一做法使他们能够测试因果关系,而不仅仅是相关性(这一特征我会在下一章中讨论)。确实,在成长的岁月里搬到合适的城市,会对一个人产生巨大的影响。
那么美国是一个“充满机遇的国家”吗?
答案既不是肯定的,也不是否定的。答案是:在某些地方是,在某些地方不是。
正如几位作者所写的那样:“更准确地说,美国是一个社会的集合,有些地方‘充满机遇’,跨代流动性大,其他地方却几乎没有任何一个孩子能摆脱贫穷。”
那么,美国收入流动性高的地区怎么样呢?是什么让一些地区能在更好地平衡竞争环境的同时,也让一个穷人家的孩子过上美好的生活呢?答案是,在教育上花费更多的地区为贫困儿童提供了更好的机会。信教人士多、犯罪率低的地方做得更好,黑人多的地区则不尽如人意。有趣的是,这不仅对黑人孩子有影响,而且对生活在那里的白人孩子也有作用。单身母亲多的地方情况更糟。这种效应不仅适用于单身母亲的孩子,而且适用于生活在单身母亲很多的地方的父母双全的孩子。其中一些结果表明,穷人家孩子的玩伴很重要。如果他的朋友背景困难,成功机会少,他也可能很难摆脱贫困。
数据表明,美国部分地区在帮助孩子摆脱贫困方面做得很好。那么,又是哪些地方能够让人们摆脱死神的造访呢?[5]
人们总是认为死亡对每个人来说都是公平的。毕竟,没有人可以逃避死亡。贫民不可以,国王不可以,流浪汉不可以,马克·扎克伯格也不可以。每个人都会死。
即使富人无法避免死亡,但数据还是告诉我们,他们现在至少可以延缓死亡的到来。总的来说,美国收入排名前1%的女性的寿命比收入最低的1%的女性长10年。对男性来说,这一寿命差距是15年。
这些模式在美国不同地区有何区别呢?预期寿命是否会因居住地而异呢?对富人和穷人来说,这种寿命差距有区别吗?通过放大地理位置,拉杰·切蒂的团队再一次找到了答案。
有趣的是,对美国最富裕的人来说,他们的预期寿命几乎完全不受居住地的影响。如果你有足够多的钱,作为女性你可以活到大约89岁,作为男性你可以活到大约87岁。各地的富人都倾向于养成更健康的习惯——一般来说,他们锻炼得更多,吃得更好,吸烟更少,而且患肥胖症的概率更小。他们买得起跑步机、有机牛油果,也上得起瑜伽课,而且他们可以在美国的任何一个地方买到这些东西。
对穷人来说,情况就不同了。美国最贫穷的人的预期寿命的变化在很大程度上取决于居住地。事实上,住在对的地方可以延长穷人5年的寿命。
那么,为什么有些地方似乎可以让穷人活得更久呢?那些穷人居住时间最长的城市有哪些特点呢?
表5–3中罗列了其中一座城市的4个特征,其中3个与穷人的预期寿命无关,另一个有关。看看你能不能猜出哪个是最重要的。
表5–3 促使穷人在一座城市活得更久的因素
前三个特征(宗教、环境和医疗保险)与穷人的寿命长短无关。那么,根据切蒂及其他参与这项研究的人的说法,富人数量这一重要的变量与之有关吗?有多少富人居住在一座城市里?城市里富人越多,意味着那里的穷人活得越长。例如,纽约市的穷人就比底特律的穷人活得更长。
为什么富人的存在如此有力地预示着穷人的预期寿命呢?其中一个假设(这是猜测)是由戴维·卡特勒(David Cutler)提出的,他是这项研究的作者之一,也是我的顾问之一。传染性行为可能会导致这种情况的发生。[6]
大量研究表明,习惯是会传染的。所以,居住在富人附近的穷人会养成很多富人的习惯。有一些习惯(如讲话自命不凡)不太可能影响一个人的健康,但是其他习惯(如健身)肯定会产生积极的作用。事实上,生活在富人附近的穷人锻炼更多,吸烟更少,也更不容易患肥胖症。
我个人最喜欢的研究是切蒂团队(他们可以访问国税局的海量数据)所做的调查——为何有的人逃税,而有的人不逃?[7]解释这项研究要更复杂一些。
关键是要知道,对有一个孩子的个体经营者来说,有一种简单的方法可以让他们从政府得到最多的钱。如果你报告称,在某一年你的应纳税收入正好是9 000美元,政府就会给你开一张1 377美元的支票,这笔钱代表的是劳动所得的税收抵免(一笔补助金,用于补贴有工作的穷人)减去你的工资税的数额。若报告的应纳税收入高于9 000美元,你的工资税将会增加;若报告的应纳税收入低于9 000美元,所得税收抵免就会下降。应纳税的收入为9 000美元是最佳选择。
而且,你难道不知道9 000美元是有一个孩子的个体经营者最常见的应纳税收入吗?
这些美国人是否调整了他们的工作时间表,以确保自己拿到最优的收入呢?没有。对这些工人进行随机抽查时(这种做法并不多见),几乎总是发现他们的收入远非9 000美元,要么少得多,要么多得多。
换句话说,他们在税收上作了假,假装自己挣了9 000美元,以便从政府得到最丰厚的支票。
那么,这种类型的税收欺诈有多典型呢?在有一个孩子的个体经营者中,谁最有可能实施这种欺诈行为呢?切蒂和他的同事报告称,在美国不同地区,这种欺诈行为的普遍性存在巨大的差异。在迈阿密的这类人中,30%的人都说自己挣了9 000美元,数量惊人;而在费城,只有2%。
什么因素能够预测谁会作假?究竟哪些地方欺诈行为高发,哪些地方欺诈行为低发呢?我们可以将作假率与其他的城市人口统计数据联系起来。结果表明,有两个强有力的预测因素:一是有资格享受税收抵免的人在某一地区高度集中,二是税收专家在该地区高度集中。
这些因素说明什么问题呢?切蒂和合著者做了解释。以这种方式骗税的主要动机就是获取信息。
大多数有一个孩子的个体经营纳税人都不知道从政府得到丰厚支票的神奇数字为9 000美元,但是居住在那些可能知道这一点的人(不论是邻居还是税务助理)附近,都能大大增加他们了解这一点的概率。
事实上,切蒂的团队发现了更多的证据,证明是“知识”驱动了这种欺诈行为。当美国人从一个税收欺诈率低的地区搬到一个税收欺诈率高的地区时,他们就学会了这个伎俩。随着时间的推移,欺诈行为在美国各地蔓延开来。像病毒一样,税收作假也是会传染的。
现在,我们停下来思考一下这项研究多有启迪意义。当我们想弄清楚谁会作假时,关键不是判断谁诚实,谁不诚实,而是要判断谁知道如何作假,谁不知道。
因此,有人告诉你他们绝不会在税收上作假时,他们很可能(正如你猜想的那样)在说谎。切蒂的研究说明,如果知道如何作假,他们就有可能这么做。
如果你想在税收上作假(我可不是在建议你这样做),就应该住在税务专业人士附近,或者住在那些能给你指路的税务骗子附近。如果你想自己的孩子能扬名海内外,又应该住在哪里呢?这种能够放大数据以真正看到细微之处的能力也有助于回答这一问题。
从前我很好奇最成功的那些美国人究竟来自哪里,所以有一天我决定下载维基百科。[8](现在你也可以做这件事了。)
通过简单的编码手段,我有了一个由超过15万名美国人组成的数据集,维基百科的编辑认为,这些数据足以保证我得到一个切入点。数据集包括出生县、出生日期、职业和性别。我将其与国家卫生统计中心采集的县级出生数据进行了整合,计算了美国每个县因你的成功而被录入维基百科的概率。
被录入维基百科是成功的一个重要标志吗?这显然有一定的局限性。维基百科的编辑偏向年轻人和男性,这有可能会对样本造成偏差,而且有些类型的出名并没有什么价值。例如,特德·邦迪(Ted Bundy)被录入维基百科是因为他杀害了几十位年轻女性。这就是说,我还是能够在不影响结果的前提下清除罪犯的信息。
我把这项研究限定在“婴儿潮一代”(1946—1964年出生的人),因为他们终其一生都在追求名利。“婴儿潮一代”中,大约每2 058人中就有一人被认为足够出名,可以被录入维基百科词条。这些位列维基百科的人中,大约30%的人凭借艺术或娱乐方面的成就,29%的人因为体育,9%的人因为政治,3%的人通过学术或科学,可谓各有所长。
我在这些数据中发现的第一个引人注目的事实是,获得巨大成功的可能性中存在着巨大的地理差异,至少在维基百科的词条上是这样体现的。人们出名的概率在很大程度上取决于出生地。
在出生于加利福尼亚州的“婴儿潮一代”中,大约每1 209人中就有一人登上维基百科。在西弗吉尼亚州,每4 496人中才有一人登上维基百科。按县放大,结果就更能说明问题了。在出生于波士顿所在地马萨诸塞州萨福克县的“婴儿潮一代”中,大约每748人中有一人登上维基百科。在其他一些县,成功率则为其5%。
为什么美国某些地区出现国家的推动者和引导者的概率更大呢?我仔细检查了排名靠前各县的情况,结果发现几乎所有的县都可划归下述两个类别之一。
首先,我很惊讶,很多这样的县中都有一个相当大的大学城。几乎每一次看到自己从未听过的县名出现在列表前端时,我都会发现这个县有一个著名的大学城,比如密歇根州的沃什特瑙,这里坐落着密歇根大学安娜堡分校。威斯康星州的麦迪逊、佐治亚州的雅典、密苏里州的哥伦比亚、加利福尼亚州的伯克利、北卡罗来纳州的查伯山、佛罗里达州的盖恩斯维尔、肯塔基州的列克星敦和纽约州的伊萨卡都位列前3%。
这是为什么呢?其中一些可能是由于基因库的缘故:教授和研究生的子女往往很聪明(在追逐巨大成功的游戏中,这种特质非常有用)。而且,一个地区有更多的大学毕业生的确可以作为出生于此地的人获得成功的有力预测指标。
但最有可能发生的事情是:早早接触创新。在大学城,培养精英最成功的领域之一便是音乐。大学城的孩子有机会接触独特的音乐会、不寻常的广播电台乃至独立的唱片店,而且这种影响不仅限于艺术领域。大学城里也能培育出比预期更多的知名企业家,或许早早接触前沿艺术和各种想法对其投身该领域也是大有裨益的。
大学城的成功不仅是跨地区的,而且是跨种族的。在维基百科的非运动领域,尤其是商业和科学领域,非洲裔美国人的比例明显偏低。这无疑与歧视有关。有一个小县城是个例外,该县1950年黑人人口占比高达84%,但这里在婴儿潮时期出生的人后来声名大振的概率非常接近那些出现名人最多的县。
婴儿潮时期出生在亚拉巴马州梅肯县的婴儿不足13 000人,其中有15人成功被录入维基百科——概率为1/852。这15位名人个个都是黑人,其中14人来自塔斯基吉小镇,即布克·T.华盛顿(Booker T. Washington)创立的历史悠久的黑人大学“塔斯基吉大学”的所在地。这14人中有法官、作家和科学家。事实上,出生在塔斯基吉小镇的一名黑人小孩在非体育领域成功的可能性与一个出生在成功概率最高、白人占多数的大学城的白人小孩一样大。
其次,最有可能让一个县的原住民取得成功的第二个原因,是其所在县位于大城市。[9]出生于旧金山县、洛杉矶县或纽约市都是极有可能登上维基百科的。(我把纽约市的5个县归为一组是因为很多维基百科词条并没有注明人物出生于哪个县。)
城市地区往往有很多成功模式可以参照。想要了解小时候与某个领域众多成功从业者毗邻而居究竟有何价值,比较一下纽约、波士顿和洛杉矶这三座大城市便一目了然了。这三座城市中,纽约产出著名记者的概率最大,波士顿产出杰出科学家的概率最大,洛杉矶产出知名演员的概率最大。要记住,我们这里说的都是那里土生土长的当地人,不是后来搬到那里的人。即使将那些父母在那个领域颇有声望的人排除在外,情况也是如此。
除非当地有比较大的大学城,否则地处郊区的县要比地处城市的县糟糕得多。像许多婴儿潮时期出生的人一样,我的父母把家从拥挤的街道搬到了绿荫大道(从曼哈顿搬到新泽西州的博根县),以便更好地培育他们的三个孩子。这可能是个错误,至少从培养孩子出名这方面来说是错的。出生于纽约的孩子将来登上维基百科的概率要比出生于博根县的孩子小80%。这些不过是相关性,但确实表明从小有机会接触新奇想法要比在空荡的后院里长大好。
如果当时得到整个童年时代居住地更精准的数据的话,那么这里确认的明显影响也许会更加强烈,因为很多人在成长过程中并非只住在自己出生的地方。
只看数据,就会发现大学城和大城市的成功是令人惊讶的,但我还是更加深入地进行了更加复杂的实证分析。
这样做表明,还有另一个变量也能很准确地预测一个人能否被录入维基百科词条:出生县的移民比例。某一地区外来居民比例越高,在那里出生的孩子取得显著成功的比例就越高(特朗普就是最好的例子)。如果两个地方的城市人口和大学人数不相上下,那么移民更多的地方将会培养出更多杰出的人。这又做何解释呢?
这种现象很大程度上要直接归因于那些移民的子女。我曾经根据麻省理工学院的“万神殿”项目(Pantheon project)对数百名最著名的白人“婴儿潮一代”的传记进行详尽的研究,该项目目前也在与维基百科的数据进行合作。这数百人大多是艺人,其中至少有13人的母亲属于外来居民,包括奥利弗·斯通(Oliver Stone)、桑德拉·布洛克(Sandra Bullock)和朱丽安·摩尔(Julianne Moore)。这一比例比同时期全国平均水平高三倍多。[很多人的父亲是移民,包括史蒂夫·乔布斯(Steve Jobs)和约翰·贝鲁西(John Belushi),但这一数据很难与全国平均水平相比,因为有关父亲的信息并不总是出现在出生证上。]
哪些变量不会对成功产生影响呢?我发现其中一个相当惊人的变量是一个州在教育领域的支出。在城市居民比例相似的那些州,教育支出与培育杰出作家、艺术家或商业领袖的比例无关。
把我的维基百科研究与前文讨论过的切蒂团队的研究进行比较非常有趣。回想一下,切蒂的团队曾试图找出哪些地区允许人们顺利逆袭,冲到中上阶层。我的研究则试图找出哪些地区更能允许人们获取名望。两相对比,结果截然相反。
在教育上花大钱有助于孩子们进入中上阶层,但在使他们成为杰出作家、艺术家或商业领袖方面帮不上什么忙。这类成功人士中有很多人都曾痛恨学校,有些人甚至辍过学。
切蒂的团队发现,如果你想确保孩子跻身中上阶层,纽约并不是一个特别好的选择。我的研究却发现,如果你想给孩子一个成名的机会,那纽约就是你要找的地方。
在探寻推动成功的因素时,各县之间的巨大差异就开始变得有意义。许多县同时具备推动成功的所有因素。我们再回到波士顿看看。因为有多所高等学府,所以这座城市一直孕育着创新思维。在这里,很多造诣极高的人士为年轻人树立了成功的典范。这里也吸引着大量移民,他们的孩子也被动地学习着这些经验教训。
如果一个地区没有这些特征该怎么办?那里就注定不会培养出几位超级明星吗?不一定。还有另一条路:极强的专业化。明尼苏达州有一个罗索县,地处乡村,很少有外来居民,也没有重点大学,这个小县就是一个很好的例子。在此地出生的人中,每740人中就有一人登上维基百科。秘密是什么呢?登上过维基百科的那9个人全都是职业曲棍球运动员,毫无疑问,他们都得到了本县世界级青年项目和高中曲棍球项目的帮助。
假设你对培养一名曲棍球明星不感兴趣,却又想让自己未来的孩子出人头地,那么把家搬到波士顿或塔斯基吉小镇有意义吗?通常来说,经济学家和社会学家关注的是如何规避不良后果,如贫穷和犯罪。然而,一个伟大社会的目标不应仅仅是让更少的人落后,而是帮助尽可能多的人获得成功。或许放大数十万名杰出的美国人出生地的努力能给我们提供一些初步的策略:鼓励移民、资助高等院校和支持艺术的发展等。
通常情况下,我研究的对象是美国,所以,当我想放大地理位置的时候,就想到了放大我们的城市和小镇——亚拉巴马州的梅肯县和明尼苏达州的罗索县这样的地方。互联网数据另一个不断增长的巨大优势是它可以轻松地从世界各地搜集到数据,我们因此可以看到各国的不同之处,数据科学家也可以借此机会涉足人类学。
我最近钻研的一个随机主题是:世界各地的怀孕情况如何?我查看了孕妇的谷歌搜索,发现的第一件事是各国女性对身体状况有着惊人相似的抱怨。
我测试了与“怀孕”一词的组合中各种症状的搜索频率。比如,“怀孕”与“恶心”“背痛”“便秘”组合的搜索频率是多少?加拿大孕妇出现的症状与美国孕妇非常接近。英国孕妇、澳大利亚孕妇和印度孕妇出现的症状也大致相似。
世界各地的孕妇渴望同样的东西。在美国,这类谷歌搜索中排名第一的是“想在怀孕期间吃冰”。接下来的4个搜索为盐、甜食、水果和辛辣食物。在澳大利亚,孕妇渴求的东西并没有太大不同:盐、甜食、巧克力、冰和水果。印度呢?情况也很类似:辛辣食物、甜食、巧克力、盐和冰激凌。事实上,排名前五的搜索在我查看的所有国家里都是类似的。
初步的证据表明,世界上没有任何一个地方曾经偶然发现过一种能彻底改变怀孕生理体验的饮食或环境。
有关怀孕的观念却大有不同。
先来看看孕妇能做哪些安全的事。美国最热门的问题是:孕妇能“吃虾”吗?能“喝酒”吗?能“喝咖啡”吗?能“服用泰诺”吗?
涉及这些问题时,其他国家与美国或美国之外的任何国家都没有多少共同之处。在加拿大、澳大利亚或英国,孕妇能否“喝酒”并不在十大问题之列。澳大利亚孕妇担忧的主要与食用乳制品,特别是与奶油乳酪制品有关。在尼日利亚,大约有30%的人使用网络,她们最关心的问题是孕妇能否喝凉水。
这些担忧合理吗?证据表明,孕妇食用未经高温杀菌处理的奶酪后,患李斯特菌的风险会大大增加。过量饮酒会对孩子造成不良后果。在世界上某些地方,人们认为孕妇喝凉水会把肺炎传给腹中的胎儿,但我不知道这种说法有何医学依据。
世界各地提出的不同问题有着巨大的差异,主要是由各国不同来源的信息洪流造成的:合理的科学研究、一般性的科学研究、奶奶的故事和邻里闲聊,不一而足。女性很难知道应关注什么,或应在谷歌网站搜索什么。
在关注热门搜索“怀孕期间如何……”时,我们会发现另一个明显的差别。在美国、澳大利亚和加拿大,最热门的搜索是“怀孕期间如何避免出现妊娠纹”,但在加纳、印度和尼日利亚,避免出现妊娠纹都不是排名前五的搜索。这些国家更关心如何过性生活或如何睡觉(见表5–4、表5–5)。
表5–4 “怀孕期间如何……”的五大搜索(按排名)
表5–5 以“孕妇能……吗”为开头的五大搜索
毫无疑问,放大世界各地的医疗健康和文化后,我们需要学习的还有更多。我的初步分析表明,大数据将告诉我们,在涉及超越生物学的知识时,人类的力量比我们意识到的要小得多。然而,我们对其全部的含义提出了完全不同的解释。
“一个以强暴别人为乐,喜欢极端暴力和贝多芬的年轻人的冒险经历。”
这即是斯坦利·库布里克(Stanley Kubrick)那部极具争议的电影《发条橙》(A Clockwork Orange)的宣传语。在这部电影中,虚构的年轻主角亚历克斯·德拉热(Alex DeLarge)的暴力行为令人发指,而他在进行暴力犯罪时的沉着冷静和分裂人格更是令人不寒而栗。电影中最为令人诟病的场景之一,是他一边强暴女人,一边扯着嗓子高唱《雨中曲》。
几乎是紧随其后,盲目模仿影片情节的犯罪事件就出现了。据报道,一群男子在强暴一名17岁的女孩时也高唱着同样的歌。这部电影在欧洲的许多国家遭到禁播,在美国上映的删减版中删除了一些更令人发指的场景。
事实上,现实生活中有很多模仿艺术的例子,人们就好像被荧幕上呈现的那些东西施了催眠术一般。[10]黑帮电影《色彩》(Colors)上映之后,紧接着现实中就有一场枪战发生;《万恶之城》(New Jack City)上映之后,随之而来的就是多场骚乱。
或许最令人感到恐慌的案例,是在《金钱列车》(The Money Train)上映4天之后,有人用点火液点燃了地铁收费站,这几乎毫无二致地模拟了电影中的一个场景。电影中的虚构世界与现实中的真实案件唯一的区别在于:电影中的纵火犯逃脱了,而在现实生活中,他被烧死了。
还有一些心理学实验证实,暴力电影的观众即使没有精准地模仿其中的暴力行为,情绪上也会变得更为易怒和暴躁。[11]
换句话说,传闻逸事和实验结果都表明,暴力电影会引发暴力行为。那么,它们究竟能产生多大的影响呢?我们是过个十年八载才会谈起一两起谋杀案,还是每年都要聊个几百起谋杀案?那些传闻或实验无法解答这个问题。
为了探究大数据是否可以给出这个问题的答案,戈登·达尔(Gordon Dahl)和斯特凡诺·德拉维尼亚(Stefano DellaVigna)这两位经济学家将1995—2004年间的三大数据整合在一起,包括美国联邦调查局的每小时犯罪数据、票房数据和从童心网(kid-in-mind.com)上得到的每部电影的暴力程度数据。
两位经济学家所使用的信息很完整(每部电影以及全美每小时内发生的每一次犯罪行为),事实证明这一点非常重要。
他们的研究发现了一个重要事实,即有些周末最受欢迎的电影是暴力电影,比如《汉尼拔》(Hannibal)或《死亡黎明》(Dawn of the Dead),然而其他周末最受欢迎的电影却是非暴力的电影,比如《落跑新娘》(Runaway Bride)或《玩具总动员》(Toy Story)。
两位经济学家可以确切地了解到,在周末放映了一部典型的暴力电影后,有多少起谋杀、强奸和袭击事件发生,也可以确切地了解到这一数据与放映了一部典型的平和电影后得到的数据的差别。
那么,他们发现了什么呢?在暴力电影放映后,犯罪率究竟是会像实验结果预测的那样上升,还是会保持不变?
两位经济学家发现,在放映人气颇高的暴力电影的周末,犯罪率是不升反降的。[12]
是的,你没看错。在放映人气颇高的暴力电影的周末,数百万名美国人都在目睹人杀人的画面,犯罪率是下降的——而且是显著下降的。
一旦得到这样出人意料的结果,人们首先想到的一定是自己的做法出了差错。于是,两位经济学家对编码工作进行了仔细审查,没有发现错误。人们的第二个想法,就是认为有另一种变量能够解释这些结果。于是,两位经济学家认真查验是否一年中的某些时刻会对这些结果产生影响。结果证明没有影响。他们还搜集了关于天气的数据,猜测天气可能在某种程度上影响暴力电影和犯罪率之间的关系。结果仍然是否定的。
“我们对自己所有的假设和眼下正在做的事情进行了查验,却没有发现任何错误。”达尔对我说道。
尽管有传闻逸事,尽管有实验证据,但结果看起来就是这么匪夷所思,放映一部暴力电影的确导致了犯罪率的大幅下降。这怎么可能呢?
达尔和德拉维尼亚研究的关键,是利用他们的大数据来近距离观察这一问题。按照惯例,调查数据通常一年提供一次,或者至多也只是一月提供一次。如果真的够幸运,可能会得到一周一次的数据。相比之下,综合数据集的运用率日益提高,逐渐取代了小样本调查的方法,人类已经能够以小时甚至分钟为单位来放大数据了,这也让我们更加了解人类行为了。
有时,随时间的推移而产生的数据波动只要不那么离奇,还是很有趣的。加拿大埃德蒙顿的公用事业公司EPCOR在2010年冬季奥林匹克运动会的冰球决赛过程中,以分钟为单位报告了当时的用水量,据估计当时约80%的加拿大人都在观看这场加拿大与美国两国之间的对决。数据显示,每个赛段一结束,耗水量随即暴涨,很明显整个埃德蒙顿市的马桶都在冲水(见图5–4)。
谷歌搜索同样可以按分钟细分,在此过程中也揭示出一些有趣的模式。[13]例如,“无阻小游戏”的搜索量在平日上午8点会迅速上涨,一直持续至下午3点,这一状况无疑反映出许多学校在不禁止学生带手机的情况下,尝试阻止学生利用校园网玩手机游戏的情况。
图5–4 奥运金牌产生过程中埃德蒙顿的耗水量
“天气”“祈祷”“新闻”的搜索率在早晨5点半之前就达到峰值,证明大多数人都比我起得早。“自杀”的搜索率在中午12点36分达到顶峰,在上午9点左右处于最低水平,证明早晨大多数人都比我心情好。
数据显示,凌晨2点到4点这段时间是思考大问题的黄金时间:意识的意义是什么?自由意志是否存在?其他星球上有生命吗?后半夜这些问题的热度如此之高,一部分要归因于大麻的作用。凌晨1点到2点之间,“如何卷大麻”的搜索率是最高的。
从他们的大数据集中,达尔和德拉维尼亚能够看到放映暴力电影的周末,犯罪行为在每小时的单位时间内是如何变化的。他们发现,相比其他周末来说,放映暴力电影的周末傍晚的犯罪率是下降的。换句话说,在暴力场面出现之前,也就是观影者正走进电影院的工夫,犯罪率就降低了。
你能猜到个中原因吗?首先,想一想谁比较偏爱观看暴力电影。当然是年轻人,特别是年轻且具有攻击性的男人。
其次,想一想犯罪行为通常发生在哪里。当然很少发生在电影院,不过也有过例外的情况,2012年科罗拉多州一家剧院就发生过一起蓄谋已久的枪击案,当时可谓人尽皆知。总的来说,看演出的男人通常不会携带武器,他们会安安静静地坐在那儿的。
给年轻且有攻击性的男性观看《汉尼拔》的机会,他们会欣然前往;可如果给年轻且有攻击性的男性去看《落跑新娘》的机会,他们不但会拒绝观看,而且会拒绝待在家里,可能会去酒吧、俱乐部甚至游泳馆之类的地方,这些都是犯罪高发的地方。
所以说暴力电影让潜在的暴力人群离开了街头。
谜题解决了。是这样吗?也不完全是。数据还透露出一件奇怪的事。电影开始时,犯罪率降了下来;然而,在电影结束和剧院关闭之后,犯罪率依然持续降低,并未停止。放映暴力电影的当晚,从午夜到次日早晨6点,犯罪率一直持续下降。
青年男性待在电影院里时,犯罪率呈降低走势,那么在他们离开影院,注意力不再集中于电影时,犯罪率难道不应该呈上升的趋势吗?他们才刚刚看完一部暴力电影,许多实验都认为这会使人更易怒,也更具攻击性。
那么,又该如何解释电影放映结束后犯罪率仍然呈现下降的趋势呢?那些犯罪学专家经过深思熟虑后,终于恍然大悟。他们知道酒精是导致犯罪行为的主要原因。[14]前述两位经济学家曾经调研过相当多的电影院,了解到在美国几乎没有剧院供应酒类饮品。事实也的确如此,研究表明在暴力电影放映结束之后的几个小时内,与酒精有关的犯罪活动数量一落千丈。
当然,达尔和德拉维尼亚的研究成果有一定的局限性。例如,他们不能测试几个月后的后续结果,从而了解犯罪率的下降趋势可能会持续多久。然而,暴力电影持续放映最终仍然有可能会导致更多的暴力行为。两位的研究的确对这些实验的主题(暴力电影对人们的直接影响)做了全面且清晰的分析。[15]也许暴力电影确实影响了一些人,使他们容易愤怒,充满攻击性。可你知道哪些因素对于人的暴力倾向有着不容置疑的影响吗?那就是与潜在的暴力犯一起喝酒和闲逛。(这个故事表明,如果能够阻止事态恶化,那么看起来糟糕的事情可能也会变好。就读于斯坦福大学的前外接员埃德·麦卡弗里(Ed McCaffrey)利用这个结论来证明他让4个儿子踢足球是合理的:“这些小家伙精力旺盛,如果不踢足球,他们就会去玩滑板、爬树、在后院拍画片、做彩弹。也就是说,他们才不会老老实实坐在那里什么都不干。我就觉得,嘿,你看,至少足球这项运动有一定的规则……孩子们经常光顾急诊室,要么是从甲板上掉下来,要么是单车事故、滑板事故,要么是从树上摔下来。我觉得你也可以称这是……没错,就是暴力性碰撞运动。虽说这些小家伙也有个性,但至少他们不会模仿松鼠从山崖上跳下,不会做些疯狂的事情。所以,我觉得这是一种有节制的攻击行为。”[16]麦卡弗里在访谈节目《牛仔和牲畜》(The Herd with Colin Cowherd)中阐述的这个论点我之前从未听说过。在阅读达尔和德拉维尼亚合作的论文后,我认真研究了这个观点。与实验室数据相比,现实世界的大数据集有一个优点,即它们可以在不经意间显示出这些效果。——作者注)
现在答案清楚明白了,但是在达尔和德拉维尼亚分析这堆数据之前,没人能理清这个问题。
当我们放大数据时,另一个更为重要的关键点凸显出来:世界是复杂的。我们今天的行为可能会产生深远的影响,而其中大部分影响都是无意使然的。思想的传播过程好似病毒蔓延——有时候很慢,有时候却又飞快。
人们对各种诱因和动机做出的回应行为通常是无法预知的。其内在的联系和外在的关系,激增和扩张,无法用小样本的调查或传统的数据方法来追踪。用小数据进行研究的话,这个本是如此简单的世界就显得过于复杂和丰富了。
2009年6月,“老爹”戴维·奥尔蒂斯(David “Big Papi”Ortiz)的职业生涯似乎已经彻底完结。在过去的5年里,波士顿红袜队对这位笑容友好、大牙缝的多米尼加籍猛士可谓宠爱有加。
他连续5次入选全明星赛,获得一次MVP(最有价值球员奖),并助波士顿红袜队结束了86年的冠军争夺战,但在2008年赛季,32岁的他排名下降了。他的击球百分比下降了68%,上垒百分比下降了76%,长打百分比下降了114%。到2009年赛季开始的时候,奥尔蒂斯的各项排名依旧持续下滑。
比尔·西蒙斯(Bill Simmons)是一名体育记者,也是一名狂热的波士顿红袜队球迷,2009年赛季伊始,他曾经这样描述道:“很显然,戴维·奥尔蒂斯不再是棒球项目中的佼佼者……强壮的猛士如今就如同色情明星、摔跤手、NBA中锋和花瓶一样:势头一过,就过气了。”[17]伟大的体育迷相信他们的眼睛,而西蒙斯的眼睛却告诉自己奥尔蒂斯已经日薄西山了,事实上他也预测奥尔蒂斯很快就会成为替补队员,甚至有可能退役。
奥尔蒂斯真的就这样完了吗?如果你是波士顿红袜队的总经理,那么2009年时,你会辞退他吗?一般而言,如何预测一个棒球运动员未来的表现呢?[18]或者从更宽泛的视角来看,我们如何使用大数据来预测人们未来会做些什么呢?
有这样一个理论可以让你进一步了解数据科学:看看那些棒球数据分析师(那些运用数据研究棒球的人)有什么研究成果,然后试着将这个成果应用到数据科学的其他领域。棒球运动属于最先运用综合数据集研究所有问题的众多领域之一,有那么一群聪明人愿意终其一生去研究这些数据。如今,他们的研究正逐渐覆盖所有领域,首先是棒球研究,其他领域的研究紧随其后,棒球数据分析师可谓一统天下了。
预测棒球运动员未来最简单的方法,就是以其目前的状态来推测他接下来的表现。如果一名球员在过去的一年半中苦苦挣扎,那么在未来的一年半中,他可能也会步履维艰。
按照这种方法论,波士顿红袜队当时应该换掉戴维·奥尔蒂斯。
但是,可能还有更多相关信息。20世纪80年代,被公认为棒球数据分析鼻祖的比尔·詹姆斯(Bill James)强调了年龄的重要性。詹姆斯发现,很多棒球运动员很早就会到达职业生涯的巅峰,一般27岁左右就会成名。球队往往忽略了有多少球员的球技会随着年龄的增长而下降,因此会付给高龄球员过高的薪水。
按照这种更先进的方法论,波士顿红袜队肯定会替换掉戴维·奥尔蒂斯。
但这种年龄判定法可能也会有一些差池,并非所有球员都会沿着同一路径走完自己的职业生涯。一些球员可能在23岁时球技达到峰值,另一些球员则会在32岁时如日中天。矮个子球员可能与高个子球员情况不同,体形瘦的球员与体形胖的球员情况也不同。棒球数据统计人员发现,不同类型的球员有不同的衰老过程。对奥尔蒂斯来说,情况更糟:一般来说,“强壮猛士”的身体机能高峰期确实出现得较早,并且一过30岁很快就衰退了。[19]
如果波士顿红袜队综合考虑戴维·奥尔蒂斯的近况、年龄和体形,毫无疑问,他们应该换掉他。
后来,在2003年,统计学家纳特·西尔弗引入了一个名为PECOTA的新模型来预测队员的表现,这果然是最好、最酷炫的方式。西尔弗搜寻到了球员的二重身!步骤是这样的:建立一个数据库,其中包括职业棒球大联盟有史以来18 000多名球员的所有数据,包含那些球员为人所知的一切信息,如他们的身高、年龄和走位,他们的本垒打、平均打击率、走路方式和职业生涯中每一年的三振数。现在,西尔弗找到20名球员,这些球员与彼时33岁的奥尔蒂斯状态最为接近,他们在24、25、26、27、28、29、30、31、32、33这些岁数时的表现和他相似。换句话说,西尔弗找到了奥尔蒂斯的二重身,然后我们来看看这些奥尔蒂斯的二重身的职业生涯走向如何。[20]
二重身的搜索是数据放大的又一个例子,它放大了与特定人物最相似的一小部分人。而且,随着对这些人物的全面放大,掌握的数据越多,二重身就越准确。事实证明,根据奥尔蒂斯的二重身对其未来所做的预测和以往对他的预测差别很大。奥尔蒂斯的二重身包括豪尔赫·波萨达(Jorge Posada)和吉姆·托梅(Jim Thome)。这些球员在其职业生涯之初显得比较慢热,在20岁出头的时候才表现出惊人的爆发力和世界级水平,然后在30岁刚出头时就开始力不从心。
西尔弗接着根据这些二重身的最终结果预测了奥尔蒂斯的未来。他发现这些人都拥有各自职业生涯的第二春。至于花瓶的比喻,西蒙斯也许是对的:势头一过,就过气了。然而,对奥尔蒂斯的二重身来说却是,好花再红,梅开二度。
二重身搜寻研究法是用于预测棒球运动员行为的最佳方法论,表明波士顿红袜队应该对奥尔蒂斯有耐心。波士顿红袜队确实对这位年长的猛士很有耐心。2010年,奥尔蒂斯的场均得分上升到270,取得了32个本垒打的好成绩,进了全明星队。奥尔蒂斯开始了他连续4场的全明星赛。2013年,37岁的他和以往一样排在第三位,以4胜2负、688分的成绩帮助波士顿红袜队击败了圣路易斯红雀队,并当选为当届世界棒球职业大赛的MVP。[21]
读完纳特·西尔弗预测球员生涯轨迹的方法后,我便立即开始考虑,自己是不是也有这么一个二重身存在。
二重身搜寻研究法在很多领域都有巨大的潜力,不仅仅局限于运动领域。我能找到与自己最为兴趣相投的人吗?也许如果找到了那个和我最相似的人,我们就可以一起出去游玩了。也许他会知道一些我们都喜欢的餐馆,也许他可以介绍一些我都不知道自己会喜欢的东西给我。
二重身搜寻研究法可以放大个体乃至个体的特征,而且,与所有的放大一样,你获得的数据越多,它就越清晰。假设我在将近10人的数据集中搜寻我的二重身,可能会找到和我喜欢同类书籍的人;假设我在将近1 000人的数据集中搜寻我的二重身,可能会找到一个和我一样喜欢流行物理学书籍的人;假设我在数亿人的数据集中搜寻我的二重身,那么就可能会找到一个和我几乎一样的人。
一天,我像个猎人一样在社交媒体上搜寻我的二重身。我使用了推特的整个数据库,寻找地球上与我最为志趣相投的人。通过我在推特上关注的人,可以准确地判断出我的许多兴趣爱好。我一共关注了250个账号,它们显示出我对于体育、政治、喜剧、科学和那些忧郁的犹太民谣歌手的热爱。
那么,世界上有没有谁和我共同关注了这250个账号呢?有没有谁是我的推特双胞胎呢?当然没有。二重身并不是我们自身的完全复制,只是有相似的地方而已。也没有任何人与我能有200个共同关注的账号,甚至连150个都达不到。
然而,我终于找到了一个账户(今日乡村音乐电台)和我共同关注了100个账户。啊?结果出人意料,“今日乡村音乐电台”是一个“僵尸”账户(并不存在),它关注了75万个推特用户,希望可以和他们“互粉”。
我怀疑我的前女友会因这个结果而感到高兴。她曾告诉我,我更像一个机器人,而不是一个活生生的人。
玩笑归玩笑,我最初的发现是我的二重身是个机器人,它关注了75万个随机用户,这个发现确实对二重身搜寻很重要。为了使二重身搜寻完全准确,你不仅会希望找到一个“同好”的人,而且想找到一个与你“同恶”的人。
不仅我关注过的账号能够清晰地显示出我的兴趣,我有意不关注的账号也能显示这一点。我喜欢体育、政治、喜剧和科学,不喜欢食物、时尚和演出。我关注的内容显示出我喜欢伯尼·桑德斯(Bernie Sanders),不喜欢伊丽莎白·沃伦(Elizabeth Warren);喜欢萨拉·西尔弗曼(Sarah Silverman),不喜欢埃米·舒默(AmySchumer);喜欢《纽约客》(New Yorker),不喜欢《大西洋报》(Atlantic);喜欢我的朋友诺厄·波普(Noah Popp)、埃米莉·桑兹(Emily Sands)和乔希·戈特利布(Josh Gottlieb),不喜欢萨姆·阿舍(Sam Asher)。(对不起,萨姆,可你的推特简讯简直要让我睡着了。)
在两亿个推特用户中,谁与我的个人资料最相似呢?事实证明,我的二重身是《沃克斯》(Vox)杂志作家迪伦·马修斯(Dylan Matthews)。结果有点儿令人失望,但为了提高自己的媒体关注度,我已经在推特和脸谱网上关注了马修斯,而且强迫自己阅读他的《沃克斯》杂志推送。所以,得知他是我的二重身并没有真正改变我的生活,但是认识世界上与你最像的人还是挺酷的,尤其是如果你还崇拜这个人的话。所以,在我完成本书,出关以后,或许我们俩可以散散步,讨论一下詹姆斯·索罗维基(James Surowiecki)的作品。
对棒球迷来说,奥尔蒂斯的二重身搜寻是非常棒的,而我的二重身搜寻是很有趣的,至少我觉得是这样的,但是,这些搜寻还能揭示出别的什么吗?许多大型互联网公司已经在运用二重身搜寻进一步改善它们的产品和用户体验。亚马逊便使用类似二重身搜寻的东西推荐你可能喜欢的书。它们能看到与你相似的人选择了什么,并以此为依据为你推荐图书。
在你挑选想听的歌曲时,潘多拉视频播放器也会做同样的事。网飞网站也是用这种方法得知你可能想看的电影的。个性化推荐系统的影响非常深远,因此,当亚马逊的工程师格雷格·林登(Greg Linden)首次引入这一方法预测读者的书籍偏好时,书籍推荐的效果明显增强了,激动的亚马逊创始人杰夫·贝佐斯(Jeff Bezos)双膝跪地,冲着林登高喊:“我何德何能啊!”
想想二重身搜寻的影响之深,就会明白这种方法真正有趣的地方不在于现在有多常用,而在于它有多不常用。生活中有很多事情都可以通过这些搜寻允许的个性化设置得到极大的提高,以我们的健康为例。
哈佛大学的计算机科学家兼医学研究员艾萨克·科恩(Isaac Kohane)正试图将这一方法应用于医学领域。他想搜集并整合人们所有的健康信息,这样一来,不用一刀切的方法,医生就可以找到和你一样的病患。然后,他们就可以使用更加个性化、更集中的诊断和治疗方法。
科恩认为这是医学领域的自然延伸,甚至都算不上什么重大进步。科恩问:“诊断到底是什么?诊断实际上是一种陈述,用以说明你与先前研究过的人有哪些共享属性。当我诊断你有心脏病时(呸呸呸,这样讲太不应该了),我会说我在你身上看到了此前我在别人身上发现的病理生理学症状,这就意味着你也患有心脏病。”[22]
从本质上说,诊断是一种原始的二重身搜寻。问题是医生用来做诊断的数据集太小了。如今,医生基于其治病的经验做诊断,或许还会以其他研究人员发表的关于小群体的学术论文做补充。不过我们已经看到,二重身搜寻要想做得好,必须有更多的案例才行。
对于这个领域,大数据确实能帮得上忙。那么,为什么还花了这么长时间呢?为什么大数据到现在还没有得到广泛应用呢?其问题在于数据搜集。许多医疗报告仍然停留在书面上,掩埋在文件堆里,而那些已经计算机化的报告,常常因格式不兼容而无法阅读。科恩指出,相比医疗卫生领域,我们在棒球方面反而通常可以得到更准确的数据。简单的措施往往大有帮助,科恩一再提到“容易得到的水果”这个说法,例如,他相信只需创建一个完整的数据集,其中包含儿童的身高体重表和他们可能会感染的所有疾病,这一举措对儿科来说将具有革命性的意义。如此一来,每个孩子的成长道路都可以与其他孩子的成长道路相比较,计算机可以找到成长路径相似的孩子,并且自动标记所有棘手的模式。计算机也可能会检测到孩子的身高过早趋于稳定,某些情况下很可能是因为孩子存在下述两种病症之一:甲状腺功能减退或脑瘤。不管是哪种情况,及早诊断都是好事。科恩说:“这些都是稀有事件,是概率只有万分之一的事件。总的来说,孩子们是健康的。我想我们可以提前诊断,至少提前一年。我们完全可以做到这一点。”
詹姆斯·海伍德(James Heywood)是一名企业家,他有一种不同的方法可以处理医疗数据连接难题。[23]他创建了一个网站PatientsLikeMe.com,每个人都可以在这个网站上报告自己的信息,如健康状况、治疗手段和副作用等。他已经获得了很多成功图表,记录了疾病的变化,以及如何将疾病与我们对疾病的一般认识进行比对。
他的目标就是招募足够多的人,考虑尽可能多的情况,从而使人们能找到他们自己的健康二重身。海伍德希望你可以找到这么一类人,你与他们年龄相同、性格相同,过去的经历相似,报告的症状也相似,然后看看他们是怎么做的。那确实会是一种完全不同的药物。
对我来说,放大行为比一项特定研究的特定发现更有价值,因为这种行为提供了一种看待和谈论生活的新方法。
当人们知晓我是一名数据科学家和作家时,他们有时就会和我分享一些事实和调查数据。我常常发现这些数据枯燥乏味,一成不变,毫无生气,并没有什么故事可讲。
同样,我的朋友也试图让我加入他们,一起阅读小说和传记,但我对这些也不怎么感兴趣。我总是问自己:“其他情形下也会出现这样的感觉吗?更普遍的情况又是什么样的呢?”他们的故事感觉没什么大不了,也不具代表性。
对我来说,我在本书中试图呈现的内容是与众不同的,这些内容基于数据和数字,具有很强的阐释性和深远的意义。数据如此丰富,我们完全可以看到这些数据所代表的人。当我放大埃德蒙顿每分钟的耗水量时,我看到了人们在这一回合结束时正从沙发上站起身来;当我放大从费城搬到迈阿密开始税收作假的人时,我看到了这些人正在公寓大楼里与邻居交谈,了解税收作假手段;当我放大每个年龄段的棒球迷时,我看到了我自己的童年和我弟弟的童年,看到了数百万个成年人在看到自己支持的球队夺冠时依然会热泪盈眶,而这支球队早在这些人还是8岁的孩子时便赢得了他们的热爱。
再次冒着听起来浮夸的风险,我认为本书中提到的经济学家和数据科学家不仅创造了一种新的工具,而且创造了一种新的流派。我在本章以及本书的大部分章节里一直努力呈现的内容便是很大且很丰富的数据,这些数据让我们能够无限放大和拉近,不局限于任何特定的、毫无代表性的人类,我们仍然能够讲述复杂而有情怀的故事。
[1] 大爆料:我在核实本书信息时,诺厄否认对棒球的厌恶之情是他人格的重要部分。他承认他讨厌棒球,但他相信善良、对孩子的爱和智慧才是自己人格的核心元素——而且他对棒球的态度在自己人格元素的排位中连前十都进不了。然而,我的结论是,我们有时候很难客观看待自己的身份,作为一个旁观者,我可以看出,讨厌棒球确实是诺厄最根本的标签,不管他是否认可这一点。所以,我还是把这一部分留在了书里。——作者注
[2] Seth Stephens-Davidowitz,“They Hook You When You’re Young,”New York Times, April 20, 2014, SR5. 本研究的数据和代码可参阅我的个人网站sethsd.com中的“Baseball”(棒球)部分。
[3] Yair Ghitza and Andrew Gelman,“The Great Society, Reagan’s Revolution, and Generations of Pres-idential Voting,” unpublished manuscript.
[4] 2015年7月30日,我对拉杰·切蒂进行了电话采访。
[5] Raj Chetty et al.,“The Association Between Income and Life Expectancy in the United States, 2001–2014,”JAMA 315, no. 16(2016).
[6] Julia Belluz,“Income Inequality Is Chipping Away at Americans’Life Expectancy,” vox.com, April 11, 2016.
[7] Raj Chetty, John Friedman, and Emmanuel Saez,“Using Differences in Knowledge Across Neighborhoods to Uncover the Impacts of the EITC on Earnings,”American Economic Review 103, no. 7 (2013).
[8] 引自Seth Stephens-Davidowitz,“The Geography of Fame,”New York Times, March 23, 2014, SR6。数据可在我的个人网站sethsd.com中的“Wikipedia Birth Rate, by County”(维基百科出生地,按县划分)部分中找到。在此感谢诺厄·斯蒂芬斯–达维多维茨,他帮助我下载并以县为单位为每一个被录入维基百科的人编码。
[9] 更多关于城市价值的证据参见Ed Glaeser, Triumph of the City(New York: Penguin, 2011)。(格莱泽是我读研时的导师。)
[10] David Levinson, ed., Encyclopedia of Crime and Punishment(Thousand Oaks, CA: SAGE, 2002).
[11] Craig Anderson et al.,“The Influence of Media Violence on Youth,”Psychological Science in the Public Interest 4 (2003).
[12] Gordon Dahl and Stefano Della Vigna,“Does Movie Violence Increase Violent Crime?”Quarterly Journal of Economics 124, no.2 (2009).
[13] Seth Stephens-Davidowitz,“Days of Our Digital Lives,”New York Times, July 5, 2015, SR4.
[14] Anna Richardson and Tracey Budd,“Young Adults, Alcohol,Crime and Disorder,”Criminal Behaviour and Mental Health 13, no. 1 (2003); Richard A. Scribner, David P. MacKinnon, and James H. Dwyer,“The Risk of Assaultive Violence and Alcohol Availability in Los Angeles County,”American Journal of Public Health 85, no.3 (1995); Dennis M. Gorman, Paul W. Speer,Paul J. Gruenewald, and Erich W. Labouvie,“Spatial Dynamics of Alcohol Availability, Neighborhood Structure and Violent Crime,”Journal of Studies on Alcohol 62, no. 5 (2001); Tony H.Grubesic, William Alex Pridemore, Dominique A. Williams, and Loni Philip-Tabb,“Alcohol Outlet Density and Violence: The Role of Risky Retailers and Alcohol-Related Expenditures,”Alcohol and Alcoholism 48, no. 5 (2013).
[15] 研究人员将这一犯罪数据拆解为小的时间增量,已经有了更多发现。例如,在一个城市的足球队输掉一场预计会赢的比赛后,家庭暴力投诉便会立即上升。参见David Card and Gordon B. Dahl,“Family Violence and Football: The Effect of Unexpected Emotional Cues on Violent Behavior,”Quarterly Journal of Economics 126, no. 1 (2011)。
[16] “Ed McCaffrey Knew Christian McCaffrey Would Be Good from the Start——‘The Herd,’ ”YouTube video, posted December 3, 2015,https://www.youtube.com/watch?v=boHMmp7DpX0.
[17] Bill Simmons,“It’s Hard to Say Good-bye to David Ortiz,”ESPN.com, June 2, 2009, http://www.espn.com/espnmag/story?id=4223584.
[18] 相关讨论详见Nate Silver, The Signal and the Noise: Why So Many Predictions Fail——But Some Don’t (New York: Penguin, 2012)。
[19] Ryan Campbell,“How Will Prince Fielder Age?” October 28, 2011,http://www.fangraphs.com/blogs/how-will-prince-fielder-age/.
[20] 该数据由“棒球计划”(Baseball Prospectus)的罗伯·麦奎恩倾情提供。
[21] 你或许可以从本书的这一部分中看出,我倾向于对好故事持怀疑态度。在这里需要写一个让人舒适的故事,所以我把批判性思维留给脚注。我怀疑PECOTA发现了奥尔蒂斯是一名类固醇使用者,他曾经停止使用类固醇一段时间,接着又“二进宫”了。从预测的角度来看,如果PECOTA能够检测到这些,那的确是非常酷炫的,但故事就不那么动人了。——作者注
[22] 2015年6月15日,我对艾萨克·科恩进行了电话采访。
[23] 2015年6月15日,我对詹姆斯·海伍德进行了电话采访。
2000年2月27日,谷歌山景城园区又开启了平常的一天。阳光普照,自行车爱好者相约骑行,按摩师做着推拿,公司员工享用着黄瓜汁。在这个稀松平常的日子里,几位谷歌工程师有了一个想法,解开了如今驱动互联网运作的秘密,他们找到了让你点击访问、再次访问、最终停留在网页上的最佳方法。
在讲述他们当日的工作之前,我们需要讨论一下相关性与因果关系,这是数据分析中的重大问题,也是我们尚未彻底解决的一个问题。
媒体似乎每天都在用相关性研究轰炸我们。例如,总有人说适量饮酒可以让我们更健康。这就是一个相关性问题。
这是否意味着适量饮酒有利于身体健康是一个因果关系问题呢?可能不是。很可能是良好的健康状况使人们想适量饮酒,社会科学家称其为因果互换。还有可能是有一个独立的因素使适量饮酒和良好的健康状况可以共存。或许和朋友一起消磨时光时,自然会小酌几杯,怡情益体,社会科学家称其为遗漏变量偏差。
那么,如何才能更准确地建立因果关系呢?其黄金标准是一个随机的对照试验,试验是这样进行的:将人们随机分为两组,其中一组为试验组,要按照要求做某件事;另一组为对照组,不做这件事。然后你会看到两组的不同回应。两组的结果差异就是你要找的因果效应。
例如,为了测试适量饮酒是否有利于健康,你可以随机选择一部分人,让他们在接下来的一年中每天喝一杯葡萄酒,再随机选择另一部分人一年不喝酒,然后比较两组的健康状况。由于人们被随机分配到两组,所以没有理由期望一组的成员会有更好的初始健康状况或更多样的社会背景。你可以相信,酒的影响是有因果关系的。随机对照试验在任何领域都是最值得信赖的证据。如果一种药物的效果可以通过一个随机对照试验的证明,就可以分配给普通民众;如果它不能通过这个测试的话,就不会在药房上架。
随机对照试验也越来越多地被应用于社会科学领域。麻省理工学院的法国经济学家埃丝特·迪弗洛(Esther Duflo)领导了一场运动,倡导人们更多地运用试验来推动发展经济学的发展。该领域始终致力于找到最佳的方式来帮助全球最贫困的人口。来看一看迪弗洛及其同事一起进行的如何改善印度农村教育的研究,那里一半以上的中学生连一个简单的句子都读不了。学生们学习吃力的一个潜在原因是教师的持续缺勤。赶上哪一天,在印度农村的一些学校,教师缺勤率会高达40%。
迪弗洛的测试是如何开展的呢?她和同事把一些学校随机分成两组。其中一组(试验组)的教师,如果按时到岗上班,除了得到他们的基本工资外,每天还会得到额外的50卢比或约1.15美元;另一组则没有额外的出勤报酬。结果很明显。当教师获得额外的出勤报酬时,其缺勤率下降了一半。[1]学生的考试成绩也大幅提高,对女学生的影响最大。到试验结束时,在老师得到额外出勤报酬的学校,女生可以写字的比例高出7个百分点。
比尔·盖茨根据《纽约客》的一篇文章了解到迪弗洛的工作,他被深深地打动了,并且向她表示:“我们一定要资助你!”[2]
所以,随机试验是证明因果关系的黄金标准,并且已经在社会科学领域广为使用。这一切将我们带回到2000年2月27日的谷歌办公室。[3]那天谷歌究竟做了什么事让互联网发生了革命性的变化呢?
那一天,几位工程师决定在谷歌的网站上进行试验。他们将用户随机分成两组。试验组的搜索结果页面中显示了20个链接,对照组的页面和以往一样显示了10个链接。然后几位工程师根据用户再次访问谷歌的频率,比较了两组用户的满意度。
这是一场革命吗?似乎还算不上什么革命。我早就注意到随机试验已经被制药公司和社会科学家广泛采用,复制他们的行为又怎么算得上了不起的大事呢?
关键(谷歌的工程师迅速意识到这一点)在于数字世界中的试验相较于线下世界中的试验具有巨大的优势。和线下随机试验一样,线上试验同样具有说服力,同样是资源密集型的研究。在迪弗洛的研究中,需要联系学校,需要安排资金,需要支付部分老师工资,所有的学生都必须接受测试。线下试验可能要花费数千或数十万美元的资金,花费数月甚至数年的时间来进行。
在数字世界中,随机试验成本低、速度快。你不需要招募参与者并支付其费用,仅需编写一行代码将其随机分入一组;你不需要用户填写调查,仅需测量鼠标移动和点击的数量;你不需要手动编码和分析答复,仅需建立一个程序来自动为你完成所有事项。你不必联系任何人,甚至不必告诉用户他们是这项试验的一部分。
这是大数据的第四大功能:它让随机试验变得更加便捷,不论何时何地,只要你在线,它就能找到真正的因果效应。在大数据时代,整个世界就是一个实验室。
这种观念迅速深入谷歌,接着是硅谷其他地区,在这里随机对照试验有了一个新名字:“A/B测试”。2011年,谷歌工程师进行了7 000次A/B测试。[4]这个数字只会不断上升。
如果谷歌想知道如何让更多的人点击他们网站上的广告,他们可能会尝试在广告中采用两种不同的蓝色——一种为A组,另一种为B组。谷歌可以比较其点击率。当然,这种测试的简易特性可能会导致其过度使用。有些员工认为,由于这种测试毫不费力,谷歌测试得有点儿“走火入魔”了。2009年,一位设计师在谷歌进行了41次广告中不同蓝色的A/B测试后,失望地辞职了。[5]尽管这位设计师追求艺术而非痴迷市场调研,却还是无法抑制这种方法的传播。
如今,脸谱网每天进行1 000次A/B测试[6],这意味着脸谱网的一小部分工程师在某一天内完成的随机控制测试比整个制药行业一年内完成的还要多。
除了这些大型科技公司外,A/B测试在其他领域也有应用。前谷歌员工丹·西罗克(Dan Siroker)将这一方法引入了奥巴马首次总统竞选活动,于是有了根据A/B测试结果设计的网站主页、根据A/B测试结果投递的电子邮件和根据A/B测试结果发起的捐款行为。然后,西罗克创立了一个新的公司Optimizely,为很多组织机构提供快速A/B测试的服务。2012年,奥巴马和他的对手米特·罗姆尼(Mitt Romney)全都使用Optimizely来最大限度地增加其网站注册量、志愿者数和捐款额。[7]该网站也为网飞、跑腿兔(TaskRabbit)和《纽约杂志》(New York)等公司所使用。
想知道这种测试效果有多么立竿见影吗?来看一下奥巴马如何利用它招徕更多人参与到他的竞选活动中吧。奥巴马的主页最初包含了一张候选人的照片,在这幅照片下方有一个邀请人们“注册”(Sign Up)的按钮(见图6–1)。
图6–1 奥巴马竞选时最初的网页截图
这是向人们表示问候的最佳方式吗?在西罗克的帮助下,奥巴马的团队可以测试不同的图片和按钮会不会带来更多的实际注册量。如果将主页照片更换为奥巴马更庄重的图片,会有更多的人点击吗?如果将按钮改为“立即加入”(Join us Now),会有更多的人点击吗?奥巴马的团队向用户展示了不同的图片和按钮组合,测试了他们中有多少人点击了按钮(见图6–2、图6–3)。来看看你是否猜中了胜出的图片和按钮。
最终胜出的是奥巴马和家人的照片和“了解更多”(Learn More)的按钮(见图6–4)。这是一场巨大的胜利。通过这种组合的运用,奥巴马的竞选团队估计网站注册量增加了40%,为竞选活动筹款增加了约6 000万美元。[8]
图6–2 用于测试的图片截图
图6–3 用于测试的按钮截图
图6–4 胜出组合截图
这项开销极低、操作简易的黄金标准测试还有另一个很大的好处:它让我们进一步摆脱了对直觉的依赖。正如第1章中所指出的那样,直觉有其局限性。A/B测试如此重要的根本原因就是人是不可预测的,我们的直觉往往无法预测人们将会做何回应。
在奥巴马的最佳主页的选择上,你的直觉是否正确?
下面有更多测试来检验你的直觉。《波士顿环球报》(Boston Globe)用A/B测试找出什么样的标题可以为某一新闻报道带来最高的点击量(见表6–1)。[9]猜一猜哪些标题胜出了。
表6–1 下列每组标题中,有一个比另一个能获得更高的点击量
选好你的答案了吗?以下加粗标题为答案(见表6–2)。
表6–2 胜出标题
可能你会根据自己的倾向做选择,我猜测你应该猜对了一多半,但可能没全猜对。
为什么没全猜对呢?你漏掉了什么?人类行为的哪些方面你还不够了解呢?你可以从自己的失误中得到什么教训呢?
在做出不够准确的预测之后,我们通常会问这样的问题。
来看一看从《波士顿环球报》的新闻标题得出一般性的结论有多么困难。在第一个标题测试中,将“这架”改为“SnotBot”便成就了一场重大胜利。这可能表明了细节才是关键,但是在第二个标题中,保留“漏气的球”这样详细的术语成了败笔;在第四个标题中,“省下个银行”胜过了节省的数目“179 000美元”,这可能意味着俗话的胜利,但是在第三个标题中,那个人尽皆知的“开苞比赛”输了。
A/B测试的经验教训在很大程度上是对一般经验的警醒。克拉克·本森(Clark Benson)是网站ranker.com的首席执行官,该网站是一个新闻娱乐网站,极度依赖A/B测试来选择标题和网站设计方案。本森说:“一天到晚什么都别想,测试简直就是一切。”[10]
测试填补了我们对人性认知的很多空白,但现实与认知的差距会永远存在。如果根据人生经验我们就能知道答案是什么,那么测试也就没有什么价值了。我们不能凭经验知道答案,所以测试也不会失去价值。
A/B测试如此重要的另一个原因是,看似微小的变化可能会产生很大的影响。正如本森所言:“那么那么微小的因素在测试中却具有极大的价值,这一点总是让我叹服。”
2012年12月,谷歌更换了公司的广告呈现形式,增加了一个由正方形包围的右箭头(见图6–5)。[11]
图6–5 谷歌更换的广告呈现形式截图
看看这个箭头,太奇怪了。它指向的右方根本什么都没有。事实上,当这些箭头首次出现时,许多谷歌的客户都有不小的意见。[12]他们纳闷的是,为什么谷歌要在广告中增加毫无意义的箭头呢?
为了保护其商业秘密,谷歌并没有说这些箭头多么有价值,但确实说过这些箭头已经在A/B测试中获胜了。谷歌添加箭头的原因是它们吸引了更多的点击量,而这个小小的、看起来毫无意义的变化让谷歌及其广告合作伙伴获利无数。
那么,你怎样才能找到这些产生超大利润的细节调整呢?你得测试很多东西,甚至很多看起来微不足道的东西。事实上,谷歌的用户已经无数次注意到广告的变化,而每次变化都只是和过去的样子相差了一点点。他们不知不觉地成为A/B测试的试验组成员,但所做的不过是看到这些轻微的变化而已(见图6–6)。
这些变化完全没有对大众产生任何影响,均以失败告终,但这些方案是选出优胜者这个过程的一部分,通往可点击箭头的道路上,铺陈着难看的星星、错误的位置和花哨的字体。
猜测让人们去点击的原因可能很有趣。如果你是民主党人,那么了解这种测试可以为奥巴马筹得更多资金也许是件好事,但是A/B测试有一个阴暗面。
亚当·奥尔特(Adam Alter)在他的著作《欲罢不能》 (Irresistible)中写到了行为上瘾在当代社会的兴起。[13]很多人发现互联网的各个方面越来越难以控制。
图6–6 广告中的细节调整试验截图
我最喜欢的数据集谷歌搜索可以提供一些线索,让我们了解人们眼中最令人上瘾的事情。据谷歌称,大多数上瘾的事情依旧是人们数十年来与之苦苦抗争的那些事,如毒品、性和酒精,但互联网已经开始出现在名单上,其中“色情”和“脸谱网”现已成为排名前十的瘾癖之一(见表6–3)。
表6–3 2016年谷歌排名前八的瘾癖[14]
A/B测试可能与人们上网成瘾也难脱干系。
《欲罢不能》引用了“设计伦理学家”特里斯坦·哈里斯(Tristan Harris)的话来解释为什么人们在互联网上难以抵御某些网站:“屏幕另一端有上千人正在瓦解你的自律。”
这些人用的就是A/B测试。
通过测试,脸谱网可能会发现,制作特定颜色的按钮会让人们更频繁地回到自己的网站,所以他们把按钮换成那个颜色。然后,他们可能会发现,一种特定的字体会让人们更频繁地回到他们的网站,所以他们把文字换成那种字体。接着,他们可能会发现,在某个时间发送电子邮件会让收件人更频繁地回到他们的网站,所以他们在那个时间给人们发电子邮件。
不久之后,脸谱网变成了一个最大限度地使人们留在其网页上的优化网站。换句话说,在A/B测试中找到足够多的优胜者,你就会拥有一个让人上瘾的网站。这种反馈类型是香烟公司从未得到过的。
A/B测试正日益成为游戏行业的一个工具。正如奥尔特所讨论的那样,《魔兽世界》对其游戏的各种版本进行了A/B测试。一个任务可能会要求你杀死一个人,另一个任务则可能会要求你完成解救任务。游戏设计师可以给玩家不同的任务提供不同的样本,然后看看哪个任务保有更多的玩家。例如,他们可能会发现,解救任务让游戏玩家有30%的回访率。如果测试了大量任务,他们就会逐渐发现越来越多的优胜者。他们会整合这30%的优胜者信息,最终形成一款游戏,许多成年男子躲在父母的地下室里沉溺其中,难以自拔。
如果你对此感到不安,还有我呢。在本书接近尾声时,我们还将更多地讨论大数据在这一方面及其他方面的道德问题。无论好坏,试验现在都是数据科学家工具箱中的重要工具。在这个工具箱中还有另一种试验形式,这种形式曾经被用来提出各种问题,包括电视广告是否真的有效。
那是在2012年1月22日,新英格兰爱国者队在美国橄榄球联合会(AFC)冠军赛中对阵巴尔的摩乌鸦队。
比赛还剩一分钟,乌鸦队比分落后,但他们得到了控球权。接下来的60秒将最终决定哪支球队可以问鼎超级碗。接下来的60秒将在球员的职业生涯里画上浓墨重彩的一笔。这场比赛的最后一分钟对一个经济学家来说有着更加深刻的意义:最后的60秒将最终彻彻底底地告诉我们,广告是否有效?
广告可以提高销售额的观念显然对我们的经济发展至关重要,但这一点着实很难验证。事实上,这是一个教科书式的例子,能够告诉我们区分相关性和因果关系有多困难。
毫无疑问,宣传力度最大的产品销量也最好。二十世纪福克斯电影公司曾经斥资1.5亿美元为电影《阿凡达》做宣传,该片也成为有史以来票房最高的电影,但是在《阿凡达》27亿美元的票房收入中有多少是源于这一大手笔的营销手段呢?二十世纪福克斯电影公司花了这么多钱为电影造势,其中部分原因可能是他们知道自己的产品很拿得出手。
公司认为他们知道自己的广告效果如何,经济学家却对此表示怀疑。芝加哥大学经济学教授史蒂芬·列维特曾与一家电子公司合作,当时那家公司试图让他相信他们对自己的广告效果心里有数,列维特却不以为然,他想,他们怎么能这么自信?
该公司解释说,每年在父亲节前几天,他们都增加了电视广告费用支出。果然,每年父亲节前他们的销售量都是最高的,但这或许是因为彼时许多子女为他们的父亲购买电子产品(尤其是作为父亲节的礼物),和广告无关。
列维特在讲座中说:“他们完全倒置了因果关系。”[15]其事实我们不得而知,但至少有这个可能。“这是一个非常难的问题。”列维特补充道。
尽管解决这个问题非常重要,但许多企业不愿意进行严密的试验。列维特试图说服电子公司进行一项随机控制的试验,以精确地了解他们的电视广告效果如何。由于A/B测试在电视上很难实现,所以要看在某些地区没有广告的情况下会发生什么事。
该公司是这样回应的:“你疯了吗?我们不可能撤掉20个市场的广告。首席执行官会杀了我们的!”列维特与该公司的合作就这样结束了。
这件事将我们拉回到这场爱国者队对阵乌鸦队的比赛中。一场橄榄球赛的结果为何能帮助我们判定广告的因果效应?虽然这个结果不能告诉我们某个特定公司某个特定广告的宣传效果,但是它可以为许多大型广告活动的平均效果提供证据。
事实证明,在这样的比赛中有一个隐形的广告试验。其运作方式是这样的:在冠军赛开始之前,各公司就已经购买并制作了超级碗的广告。当企业决定投放哪些广告时,他们并不知道哪两支球队会参加最终的比赛。
但是季后赛的结果将对谁在观看超级碗有很大的影响。这两支具备资格的球队将带来大量的观众。如果在波士顿附近的新英格兰队获胜,就会有更多的波士顿人观看超级碗,而不是巴尔的摩人,反之亦然。
对这些公司来说,这相当于用丢硬币的方式来决定巴尔的摩或波士顿数万名额外观众是否会接触到他们的广告,而这一“丢”则发生在他们的插播广告已经有人购买并制作完毕之后。
现在,回到赛场,哥伦比亚广播公司(CBS)的吉姆·南茨(Jim Nantz)正在宣布这项试验的最终结果。
比利·坎迪夫(Billy Cundiff)上场了,他极有可能扳平比分,把比赛拖入加时赛。在过去的两年中,他运动战进球16投16中。32码处扳平比分。射门。当心!当心!哎呀,不妙……爱国者队获胜将开启前往印第安纳波利斯的旅程。他们即将奔赴第46届超级碗总决赛。
两周后,第46届超级碗在波士顿的收视率达60.3%,在巴尔的摩达50.2%。波士顿6万多人观看了2012年的广告。
第二年,两支相同的球队在美国橄榄球联合会冠军赛再次遭遇。这一次,巴尔的摩获胜。2013年超级碗有更多的广告受到了巴尔的摩的关注(见表6–4)。
表6–4 2012—2013年超级碗收视评分
我和谷歌首席经济学家哈尔·瓦里安、卡内基–梅隆大学经济学家迈克尔·D.史密斯(Michael D. Smith)采用了这两场比赛以及2004—2013年所有其他超级碗赛事的数据来测验超级碗广告是否起到了效果。具体而言,我们考察了如若一家公司在超级碗上宣传了其电影,那么在超级碗收视率较高的城市,该影片票房是否会大幅上涨。
结果的确如此。在超级碗上宣传过的电影,在获得超级碗比赛资格的球队所在城市的上座率远比错失超级碗比赛资格球队所在城市的要高。在这些城市里有更多人看到了广告,便有更多的人决定去看这部电影。
另一种解释是有球队进入超级碗会让当地的居民更愿意去看电影。我们测试了一组预算相似、上映时间相近但未在超级碗上进行过宣传的电影,这些电影在参加比赛的球队所在城市的上座率并没有增加。
好的,正如你猜的那样,广告是有效的。这并不奇怪。
这不仅仅是那些广告起作用了那么简单。广告确实非常有效。事实上,第一次看到这些结果时,我们就对其进行了第二次、第三次甚至第四次检查,以确保结果准确无误——因为其回报实在过于丰厚。在我们的样本中,一般的电影只需付费300万美元便可抢占超级碗的广告位,而他们的票房却可以增加830万美元,投资回报率为2.8 : 1。
另外两位经济学家韦斯利·R.哈特曼(Wesley R. Hartmann)和丹尼尔·克拉佩尔(Daniel Klapper)也证实了这一结果,他们此前也曾分别提出类似的观点。他们研究了超级碗期间播放的啤酒和软饮广告,同时也利用了符合条件的各个城市的广告曝光率。[16]他们发现投资回报率为2.5 : 1。尽管超级碗广告费用不菲,但我们的结果和他们的研究都表明,超级碗广告在提高需求方面有奇效,所以公司的操作实际上极为物超所值。
所有这些,对于那些曾经和列维特共事过的电子公司里的朋友意味着什么呢?超级碗广告很有可能比其他形式的广告更具成本效益。起码我们的研究确实表明,在父亲节做广告应该算得上一个好主意。
超级碗试验的一个优势就是没有必要刻意将任何人分配到试验组或对照组中,这个试验的发生完全取决于球赛中运气球出现的概率。换句话说,它是自然发生的。为什么说这算一个优势?因为非自然的随机控制试验虽然在数字时代极为强大,而且容易实现,但并非总能办到的。
有时,我们无法同心协力地及时采取行动。有时,就像那个不愿意进行广告试验的电子公司一样,我们再怎么努力也无法得出结果。
有时,试验是无法实现的。假设你对一个国家失去一位领导人的反应很感兴趣,想知道这会不会引发战争,经济会不会因此停止运作,还是什么都不会变。显然,我们不能杀死大量的总统和总理,看看会发生什么事,这不仅是不可能的,而且是不道德的。几十年来,各个大学都建立了机构审查委员会,这些委员会将确定一个拟议的试验是否符合伦理。
如果我们想知道在某种情况下的因果效应,而在当时的情况下做试验是不道德的或者说不可行的,那么我们应该怎么办呢?我们可以利用经济学家所说的自然试验——其定义极为广泛,橄榄球也可包含在内。
不论好坏(好吧,显然是更坏),生活中总有一个巨大的随机因子,没有人确切地知道是什么东西或什么人来负责管理宇宙,但有一点很清楚:无论是谁在操控着这场表演(量子力学规律、上帝或一个在电脑前操控着这个宇宙的身着内裤的满脸青春痘的孩子),无论是规律、上帝还是那个孩子,谁都无法获得机构审查委员会的批准。[17]
自然一直在对我们做着试验。两人中弹,一颗子弹刚好停在了重要的器官一旁,而另一颗却没有。这些就是让生命变得不公平的倒霉事。要说有什么安慰的话,这些倒霉事倒是让经济学家在研究生命的时候容易了一点。他们利用生命的随机性来检验因果效应。
在43名美国总统中,有16人曾经遭到过暗杀,4人身亡,而其他活下来的人,其原因基本上也都是随机的。[18]
对比一下约翰·F.肯尼迪(John F. Kennedy)和罗纳德·里根(Ronald Reagan)便会明白这一点。[19]两人都被子弹直接射中身体最脆弱的部位,击中肯尼迪的子弹直击脑部,他马上就死了;击中里根的子弹停在了离心脏几厘米远的地方,医生挽救了他的生命。里根活了,而肯尼迪死了,不是为了押韵,也没有什么理由——只是因为运气。
这些企图夺走领导人性命的事件以及生死有命的随机性是全世界都在发生的事情。再对比一下车臣的艾哈迈德·卡德罗夫(Akhmad Kadyrov)和德国的阿道夫·希特勒(Adolf Hitler)。这两位都曾离一枚轰然爆炸的炸弹几英寸[20]远,卡德罗夫死了[21],而希特勒却改变了他的行程安排,提前几分钟离开被人做过手脚的房间,赶上火车,从而幸存下来。[22]
我们可以利用大自然冷酷的随机性(杀掉了肯尼迪而留下了里根)来看看一个国家的领导人被暗杀后的大致情况。本杰明·F.琼斯(Benjamin F. Jones)和本杰明·A.奥尔肯(Benjamin A. Olken)这两位经济学家就刚好做了一个这样的试验。试验中的对照组是领导人侥幸逃过暗杀的某一国家接下来几年的情况,如20世纪80年代中期的美国;试验组是领导人被暗杀的某一国家接下来几年的情况,如20世纪60年代中期的美国。
那么,领导人被谋杀后会产生什么结果呢?[23]琼斯和奥尔肯发现,成功的暗杀行为大大改变了世界历史,使各国走上了截然不同的道路。一个新的领导人可能会让原本和平的国家战火纷飞,也有可能会让连年战乱的国家获得和平;一个新的领导人可能会使经济蓬勃发展的国家开始萧条,也有可能会让经济萧条的国家逐渐蓬勃发展起来。
事实上,这场基于暗杀的自然试验结果推翻了几十年来关于各国政权如何运作的传统观点。许多经济学家过去认为,领导人主要是受外力推动的无能傀儡,但根据琼斯和奥尔肯对自然试验的分析,情况并非如此。
许多人不会把这种对世界领袖的暗杀企图作为大数据的例子来考虑。领导人被暗杀或险些被暗杀的案例能用于研究的少之又少,就好比那些或胜败可判或胜败难分的战争一样,有效案例不多。描述一条经济轨迹所需的经济数据集很大,可大部分都是先于数字化时代出现的。
尽管如此,这种自然试验(虽然目前大多是经济学家在使用)仍然极为强大,在具有更多、更好、更大数据集的时代也会变得越来越重要,这是数据科学家难以割舍的工具。
是的,现在应该弄清楚一点,经济学家在数据科学的发展中正发挥着重要作用。至少我愿意这样想,因为这是我一直以来的体验和经历。
还有什么地方可以找到自然试验?换句话说,还有没有什么随机过程恰巧将人们置于试验组和对照组的情况呢?
最明显的例子就是彩票,这就是为什么很多经济学家喜欢它们,但我们发现有一点很不合理——他们并不玩彩票,只是研究它们。如果带有数字3的乒乓球升到了顶部,琼斯先生就会变得有钱;而如果带有数字6的乒乓球升到了顶部,变得有钱的则是约翰逊先生。
为了检验意外横财的因果效应,经济学家比较了那些中彩票大奖的人和那些买彩票却没中的人。这些研究普遍发现,中彩票大奖短期内并不会使人快乐,但从长远来看会。(1978年一篇称中彩票大奖并不会使人幸福的著名论文已经被揭穿了真相。[24])
经济学家还可以利用彩票的随机性来了解当邻居发财时人们的生活会如何变化。数据显示,你的邻居中得彩票会影响你自己的生活。[25]例如,如果你的邻居中了彩票,你便更有可能买一辆昂贵的汽车,比如宝马汽车。为什么呢?经济学家认为,起因就是,在你那富有的邻居购买了昂贵的汽车之后,你的嫉妒心“爆棚”了,它粉碎了人性。如果约翰逊先生看到琼斯先生开着一辆全新的宝马汽车,他肯定也想要一辆宝马汽车。
不幸的是,约翰逊先生买不起这辆宝马汽车,这就是经济学家发现的彩票赢家的邻居很有可能破产的原因。[26]这种情况下,约翰逊先生想赶上琼斯先生是不可能的。
但自然试验不一定是明确随机的,就像彩票一样。一旦你开始寻找随机性,就会发现它无处不在,于是便可以用它来了解我们的世界是如何运转的。
医生是自然试验的一部分。每隔一段时间,因为一些其实非常随机的理由,美国政府都会更改用于为医生报销医保病人费用的算法。在某些县,医生的某些治疗费用上涨;在其他县,医生的这些治疗费用在下降。
两位经济学家[杰弗里·克莱门茨(Jeffrey Clemens)和我的老同学乔舒亚·戈特利布(Joshua Gottlieb)]测试了这一随机变化的影响。那些医生通常会一如既往地关照病人,给予这种关照是因为他们认为这是最起码的职责呢,还是因为受财政奖励驱动?
数据清楚地表明,医生会为金钱奖励所驱动。[27]在报销费用较高的县,有些医生会安排更多高报销额的治疗,如更多白内障手术、结肠镜检查和核磁共振。
接下来就是一个巨大的问题:在得到所有这些额外的保障之后,病人的病情会好转吗?克莱门茨和戈特利布的报告中指出,这些措施对提升人们的健康水平只发挥了“非常小的作用”。两位经济学家发现金钱奖励对降低死亡率无显著效果。这个自然试验表明,如果给医生更多的经济奖励,让他们可以安排一些治疗,那有些医生就会安排更多治疗,这对病人的健康来说效果不大,而且似乎也不会延长他们的寿命。
自然试验有助于回答生死问题,也有助于解决一些对年轻人来说生死攸关的问题。
史岱文森高中(常被称作“史岱”)位于一栋价值1.5亿美元的10层褐色砖石建筑中,俯瞰着哈得孙河,距离曼哈顿下城世界贸易中心只有几个街区。[28]总之,史岱文森高中令人心生向往。该校提供55个大学预修课程(AP)、7种语言课程、犹太历史选修课、科幻小说和亚洲裔美国文学。[29]该校大约有1/4的毕业生被常春藤联盟或者享有同等盛誉的大学录取。[30]史岱文森高中培养了哈佛大学物理学教授莉萨·兰德尔(Lisa Randall)、奥巴马竞选顾问戴维·阿克塞尔罗德(David Axelrod)、奥斯卡获奖演员蒂姆·罗宾斯(Tim Robbins)和小说家加里·施特恩加特(Gary Shteyngart)。[31]比尔·克林顿、科菲·安南(Kofi Annan)和科南·奥布赖恩(Conan O’Brien)都曾到这所高中做过开学演讲。[32]
唯一比史岱文森高中的办学条件和毕业生更夺目的是该校的教学成本:零美元。这是一所公立高中,也可以说是全美最好的高中。没错,最近的一项研究采用了30万名学生和家长的2 700万份评论来评估美国的每所公立高中,史岱文森高中排名第一。[33]难怪雄心勃勃的纽约中产阶层父母和他们同样雄心勃勃的孩子会对史岱文森高中的品牌如此痴迷了。
艾哈迈德·耶尔马兹(Ahmed Yilmaz)[34]的父母一个是保险代理人,另一个是纽约皇后区的教师,对他而言,史岱文森高中就是“那所梦寐以求的高中”。
“工薪阶层和移民家庭将史岱文森高中视为出路。”耶尔马兹解释道,“如果你的孩子上了史岱文森高中,他将来就能考上一所全美排名前20的正统大学,全家也就好了。”
那么,怎样才能进史岱文森高中呢?你必须住在纽约市的5个行政区之一,并在入学考试中达到一定的分数,仅此而已。不需要推荐,不需要论文,没有传承录取,没有弱势补偿措施。一天,一场考试,一个分数。如果你的分数够了,你就被录取了。
每年11月,约有27 000名纽约青少年参加入学考试。竞争是残酷的,参加考试的人中仅有不到5%能进入史岱文森高中。[35]
耶尔马兹说,他的母亲“拼了命工作”,把挣到的每一分每一厘都投入他的备考中。经过几个月(工作日的每天下午和整个周末)的悉心准备,耶尔马兹自信他可以考上史岱文森高中。至今他仍然记得收到成绩单的那一天,他多错了两道题,遗憾地与史岱文森高中失之交臂。
我问他当时是什么感受,他答道:“就好比你还是个初中生的时候,自己的整个世界就都崩塌了吧。”
他的安慰奖也不差——布朗克斯科学高中,另一所排名靠前的公立学校,可它终究不是史岱文森高中。耶尔马兹认为,布朗克斯科学高中是一所专为技术人员而设的学校。4年后,他又被普林斯顿大学拒之门外,念的是塔夫茨大学,毕业后也是几易其主,换了好几次工作。如今,他是一家高科技公司一位小有成就的员工,但他认为自己的工作“枯燥乏味”,报酬也不理想。
十多年后,耶尔马兹承认,他有时会想,如果当年他去了史岱文森高中,生活会是另一番模样吧。“一切都会不一样。”他说,“确实,我认识的每个人都会不一样。”他想知道史岱文森高中是否会让他获得更高的学术能力评估测试(SAT)分数,进入像普林斯顿大学或哈佛大学(他认为这两所学校都比塔夫茨大学好得多)这样的大学,或许还可以带来拥有更高薪水的工作。
对人类来说,玩这种假设游戏可以是娱乐,也可以是自我折磨。如果当初我对那个女孩或那个男孩袒露了爱意,我的生活会是什么样子?如果当时我得到了那份工作,现在会怎样?如果我去了那所学校,如今又会是什么状况?但这些假设似乎是没有答案的。生活不是电子游戏,在不同的情况下,你不可能重新来过,直到得到自己想要的结果。
捷克作家米兰·昆德拉在他的小说《不能承受的生命之轻》中有一个精句,我引用于此:“人生只有一次,我们无法得知我们抉择的对错,因为在某种情况下我们只有一次选择的机会,没有两次、三次或四次生命去比较每次抉择的不同。”
耶尔马兹将永远都不可能重回年少时的那次考试,不可能拿到那遗憾的两分。也许有一种方法,我们可以通过研究大量史岱文森高中的学生,了解若当年耶尔马兹考到了那里,他如今的生活可能(或者不可能)是怎样的情形。
最直截了当的方法就是将所有考上史岱文森高中的学生和没有考上的学生做比较。我们可以分析他们在大学预修课程考试和学术能力评估测试中的表现,再看看他们被哪所大学录取了。如果我们做过这样的工作,就会发现就读于史岱文森高中的学生在标准化考试中得分要高得多,最终考取的大学也要比那些没有被史岱文森高中录取的学生好得多,但正如本章已经讨论的那样,这种证据本身并不令人信服。也许史岱文森高中的学生表现得更好,首先是因为这所学校有更好的生源。这里的相关性无法证明因果关系。
为了测试史岱文森高中的因果效应,我们需要比较两个几乎完全相同的小组:一个是接受过史岱文森高中教育的试验组,另一个是没有接受过其教育的对照组。我们需要一个自然试验,但是到哪里去找这种对照组呢?
答案是:像耶尔马兹这样的学生,他们的分数非常接近入读史岱文森高中的条件。[36]没考上的学生是对照组,考上的学生就是试验组。
我们没有什么理由质疑分数线上下的学生在天资或动力方面有很大差异,毕竟一个人在考试中比另一个人多考一两分的原因可以有很多。或许那个得分较低的人少睡了10分钟,或者那天的早餐不够有营养。或许那个得分较高的人记得三年前与奶奶的一次谈话中一个特别晦涩的单词,而这个单词正好出现在考题中了。
事实上,这类(利用一刀切分数线的)自然试验的作用是非常强大的,经济学家还专门为其命名:断点回归。任何时候都有一个精确的数字(一个断点)把人们分成两个不同的群体,经济学家可以对极为接近截止点的人的结果进行比较或回归分析。
M.基思·陈(M. Keith Chen)和杰西·夏皮罗这两位经济学家利用联邦监狱使用的锐截止机制来测试恶劣的监狱条件对未来犯罪的影响。美国的联邦监狱会根据囚犯的犯罪性质和前科打一个分数,得分决定了囚犯所待监狱的条件。那些得分较高的人将进入一个戒备森严的监狱,这意味着与他人的联系减少、行动自由度降低,并且可能会遭受更多来自警卫或其他囚犯的暴力行为。
把那些关押进戒备森严的监狱的囚犯和那些关押进戒备不那么森严的监狱的囚犯进行比较是不公平的。戒备森严的监狱有更多的杀人犯和强奸犯,而戒备不那么森严的监狱则有更多的毒犯和小偷。
那些刚好在这个分数上下的罪犯其实有着大致相同的犯罪前科和背景。然而,这微不足道的一分就将他们送进了条件截然不同的监狱。
结果如何呢?经济学家发现,分配到条件更加严苛的监狱的囚犯,在离开监狱后还有可能犯下更多罪行。[37]严苛的监狱条件并没有阻止他们犯罪,而是使他们变得更加冷酷无情,回到现实社会中变得更具暴力倾向。
那么,这样一种“断点回归”现象为史岱文森高中带来了什么启示呢?麻省理工学院和杜克大学的经济学家阿蒂拉·阿卜杜勒卡迪罗格鲁(Atila Abdulkadiroğlu)、乔舒亚·安格里斯特(Joshua Angrist)和帕拉格·帕塔克(Parag Pathak)组成了一个团队,共同展开这项研究。他们比较了在截止点分数上下的纽约学生的最后结果。也就是说,这些经济学家研究了数百位像耶尔马兹一样因一两道题而错过史岱文森高中的学生,然后将他们和数百名考试日成绩稍好,因为多对了一两道题考上史岱文森高中的学生进行了比较。他们评判成败的标准是这些学生的大学预修课程分数、学术能力评估测试分数和最终进入大学的排名。
研究的结果令人震惊,几位学者已经将这些结果撰文明确呈现出来,文章标题为:“精英幻觉”。史岱文森高中带来的影响有多大呢?[38]无!没有!零!纯属胡扯!分数线两边的学生最后的大学预修课程分数和学术能力评估测试分数都难分高下,所就读的大学也都是排名相当的名牌大学。
研究人员总结道,史岱文森高中的学生比其他学生在人生中得到的东西更多的原因是,更好的学生的首选便是就读史岱文森高中。史岱文森高中不会使你在大学预修课程考试中表现得更好,不会使你在学术能力评估测试中分数更高,也不能让你最终考上更好的大学。
几位经济学家写道:“竞争激烈的入学考试席位的价值似乎并未体现出来,入选的精英学子在这里学业进步的程度并不足以证实学校的优势。”
为什么说你去哪所学校也许并不重要呢?更多故事可以帮助你得到答案。再来看看另外两名学生萨拉·考夫曼和杰西卡·恩格的故事吧。两个年轻的纽约人从小就想进史岱文森高中。考夫曼的分数刚好在分数线上,一道题决定了她的成功。考夫曼回忆说:“再也不会有任何事能让我如此兴奋了。”恩格的得分刚刚低于分数线一分,一道题注定了她的失败。考夫曼去了她梦想的学校——史岱文森高中,恩格没去成。
那么,她们的人生现在如何呢?两个人都找到了成功且收入不菲的工作——和全纽约考试成绩永远排在前5%的那些人中的大部分人一样。可讽刺的是,恩格更喜欢高中的经历。她就读的是布朗克斯科学高中——唯一一所拥有大屠杀纪念馆的高中。恩格发现自己喜欢内容管理,因此在康奈尔大学读了人类学专业。
考夫曼在史岱文森高中却感到有些失落。在那里,学生们非常重视成绩,她觉得史岱文森高中过于强调测试而不是教学。她称自己的体验“绝对是五味杂陈”,但这也是一种学习经历。她意识到,如果要选大学,她只会申请那些更重视教学的文科学校。她进入了自己梦寐以求的学校——维思大学。在那里,她找到了帮助别人的热情,现在她是一名公益律师。
人们根据经历调整自己,是金子总会发光的。让你成功的因素是你的才华和动力,而不是谁给你做开学演讲或名校提供的其他优势。
这只是一项研究,它可能被“大多数落榜史岱文森高中的学生最后都念上了另一所好学校”这个事实弱化了,但越来越多的证据表明,尽管念一所好学校确实重要,然而顶尖的学校其实并不会为你带来很多东西。
以大学为例。如果你上的是世界上最好的大学之一,比如哈佛大学或者宾夕法尼亚州立大学这样一流的学校,那有什么了不起呢?
是的,学校排名和人们的收入之间有着明显关联。哈佛大学毕业生进入职场10年后的年薪平均达12.3万美元,宾夕法尼亚州立大学的毕业生10年后的年薪平均达8.78万美元。[39]
但是这种关联并不意味着因果关系。
斯泰西·戴尔(Stacy Dale)和艾伦·B.克鲁格(Alan B. Krueger)这两位经济学家想到了一种巧妙的方法来测试精英大学与毕业生未来收入潜力之间的因果影响。他们有一个跟踪高中生信息的巨大数据集,包括他们申请哪所大学、被哪所大学录取、就读于哪所大学、他们的家庭背景和他们成年后的收入等信息。
为了获得一个试验组和一个对照组,戴尔和克鲁格比较了家庭背景相近、被同样的几所大学录取但选择了不同学校的学生。一些被哈佛大学录取的学生最后选择了宾夕法尼亚州立大学,或许是因为想要离女朋友或男朋友更近一点,或者是因为他们想要师承某位教授。换句话说,根据招生委员会的资料,这些学生和去哈佛大学的学生一样都是天才,但他们有着不同的教育经历。
所以,当两个背景相似的学生都被哈佛大学录取,但其中一个选择了宾夕法尼亚州立大学时,会有什么事发生呢?研究人员的调查结果与史岱文森高中研究的结果一样惊人。那些学生的职业收入与哈佛大学的毕业生难分伯仲。如果以未来的收入作为衡量标准,那么家庭背景相似且被同一所知名大学录取但选择就读不同学校的学生,他们未来的处境也是大致相近的。[40]
我们的报纸上刊登了一些关于就读于常春藤联盟的成功人士的文章,如微软的创始人比尔·盖茨与脸谱网的创始人马克·扎克伯格和达斯廷·莫斯科维茨(Dustin Moskovitz),他们都曾就读于哈佛大学。(当然,他们都辍学了,这引发了关于常春藤联盟教育价值的更多讨论。)
还有一些故事,讲述了一些人因才能出众而被常春藤联盟录取,但选择去一所不那么有名望的学校,并铸就了辉煌的人生,如一开始就读于宾夕法尼亚州立大学沃顿商学院(一所常春藤商学院)的沃伦·巴菲特,他后来转学到内布拉斯加大学林肯分校,因为这所学校学费较低,再加上巴菲特本人不喜欢费城,他还认为沃顿商学院的课非常无聊。[41]数据显示,至少在赚钱方面,选择上一所名不见经传的学校对巴菲特这样的人来说是一个很好的决定。
本书名为“人人都在说谎”,通过这个书名,我主要想说人们之所以(对朋友、对调查、对自己)都说谎,是为了让自己看起来更好一些。
这个世界也在通过向我们提供错误的、误导性的数据对我们说谎。这个世界让我们看到有更多哈佛大学学子成为成功人士,但宾夕法尼亚州立大学的学生较少获得同等的成功,因此我们认为在哈佛大学学习有更大的优势。
通过巧妙地运用自然试验,我们可以正确地理解这个世界的数据——发现什么是真正有用的,什么是无用的。
自然试验也与上一章有关。这些试验经常需要放大试验组和对照组:超级碗试验中的城市、医疗保险定价试验中的县、史岱文森高中试验中录取分数线上下的学生等。正如上一章所讨论的那样,放大工作往往需要庞大而全面的数据集——随着世界的数字化,这类数据集越来越多。由于不知道大自然会选择进行什么样的试验,所以我们不能创建一个小的调查来衡量其结果。我们需要大量的现有数据来从这些干预中学习经验,总结教训。我们需要大数据。
关于那些试验(无论是人类自己的试验还是自然界的试验)还有一个更重要的观点在本章中得到了详尽的呈现。本书的大部分内容都集中在了解世界上——奥巴马为种族主义买了多少单,有多少男性真的是同性恋者,男人和女人对自己的身体有多么不自信,但是这些控制试验或自然试验有一个更实际的倾向,它们的目标是改善我们的决策,帮助我们了解哪些干预起作用,哪些干预不起作用。
公司可以学习如何获得更多的客户,政府可以学习如何使用报销来最大限度地提升医生的工作积极性,学生可以了解哪些学校是最有价值的。这些试验证明了大数据能够替代猜测、传统智慧和与实际效果相关的伪劣关系——因果关系。
[1] Esther Duflo, Rema Hanna, and Stephen P. Ryan,“Incentives Work:Getting Teachers to Come to School,”American Economic Review 102, no. 4 (2012).
[2] Ian Parker,“The Poverty Lab,”New Yorker, May 17, 2010.
[3] 其他地方也有对这一事件的相关讨论,参见Brian Christian,“The A/B Test: Inside the Technology That’s Changing the Rules of Business,”Wired, April 25, 2012, http://www.wired.com/2012/04/ff_abtesting/。
[4] Christian,“The A/B Test.”
[5] Douglas Bowman,“Goodbye, Google,” stopdesign, March 20, 2009,http://stopdesign.com/archive/2009/03/20/goodbye-google.html.
[6] Eytan Bakshy,“Big Experiments: Big Data’s Friend for Making Decisions,” April 3, 2014, https://www.facebook.com/notes/facebook-data-science/big-experiments-big-datas-friend-for-makingdecisions/10152160441298859/. 有关药物研究的信息来源见“How many clinical trials are started each year?” Quora post, https://www.quora.com/How-many-clinical-trials-are-started-each-year。
[7] 2015年4月29日,我对丹·西罗克进行了电话采访。
[8] Dan Siroker,“How Obama Raised $60 Million by Running a Simple Experiment,” Optimizely blog, November 29, 2010, https://blog.optimizely.com/2010/11/29/how-obama-raised-60-million-byrunning-a-simple-experiment/.
[9] 《波士顿环球报》将A/B测试和结果提供给笔者。关于《波士顿环球报》的测试细节可以在下面的文章中找到:“The Boston Globe: Discovering and Optimizing a Value Proposition for Content,” Marketing Sherpa Video Archive, https://www.marketingsherpa.com/video/boston-globe-optimization-summit2。其中包括《波士顿环球报》的彼得·杜塞特(Peter Doucette)与MECLABS的帕梅拉·马基(Pamela Markey)之间的录音对话。
[10] 2015年7月23日,我对克拉克·本森进行了电话采访。
[11] “Enhancing Text Ads on the Google Display Network,” Inside Ad Sense, December 3, 2012, https://adsense.googleblog.com/2012/12/enhancing-text-ads-on-google-display.html.
[12] 例如,参见“Large arrows appearing in google ads——please remove,”Double Click Publisher Help Forum, https://productforums.google.com/forum/#!topic/dfp/p_TRMqWUF9s。
[13] Adam Alter, Irresistible: The Rise of Addictive Technology and the Business of Keeping Us Hooked (New York: Penguin, 2017).
[14] 笔者对谷歌趋势数据的分析。
[15] 目前在哈里·沃克演讲人公司的苹果橘子经济学页面上播放的视频中正对此进行讨论,见http://www.harrywalker.com/speakers/authors-of-freakonomics/。
[16] Wesley R. Hartmann and Daniel Klapper,“Super Bowl Ads,”unpublished manuscript, 2014.
[17] 关于人类可能生活在计算机模拟世界中的例子,参见NickBostrom,“Are We Living in a Computer Simulation?” Philosophical Quarterly 53, no. 211 (2003)。
[18] Los Angeles Times staff,“U.S. Presidential Assassinations and Attempts,”Los Angeles Times, January 22, 2012, http://timelines.latimes.com/us-presidential-assassinations-and-attempts/.
[19] Benjamin F. Jones and Benjamin A. Olken,“Do Assassins Really Change History?”New York Times, April 12, 2015, SR12.
[20] 1英寸= 2.54厘米。——编者注
[21] 这一视频可在以下地址看到:“Parade surprise (Chechnya 2004),”YouTube video, posted March 31, 2009, https://www.youtube.com/watch?v=fHWhs5QkfuY。
[22] 这一案例参见Jones and Olken,“Do Assassins Really Change History?”
[23] Benjamin F. Jones and Benjamin A. Olken,“Hit or Miss? The Effect of Assassinations on Institutions and War,”American Economic Journal: Macroeconomics 1, no. 2 (2009).
[24] 这一观点见于John Tierney,“How to Win the Lottery (Happily),”New York Times, May 27, 2014, D5。蒂尔尼的文章讨论了以下各项研究: Bénédicte Apouey and Andrew E. Clark,“Winning Big but Feeling No Better? The Effect of Lottery Prizes on Physical and Mental Health,”Health Economics 24, no. 5 (2015); Jonathan Gardner and Andrew J. Oswald,“Money and Mental Wellbeing:A Longitudinal Study of Medium-Sized Lottery Wins,”Journal of Health Economics 26, no. 1 (2007); Anna Hedenus,“At the End of the Rainbow: Post-Winning Life Among Swedish Lottery Winners,”unpublished manuscript, 2011。蒂尔尼的文章还指出了1978年一项非常著名的研究——Philip Brickman, Dan Coates, and Ronnie Janoff-Bulman,“Lottery Winners and Accident Victims: Is Happiness Relative?”Journal of Personality and Social Psychology 36, no. 8 (1978)——发现中彩票大奖不会使人幸福是基于一个极小的样本。
[25] 参见Peter Kuhn, Peter Kooreman, Adriaan Soetevent, and Arie Kapteyn,“The Effects of Lottery Prizes on Winners and Their Neighbors:Evidence from the Dutch Postcode Lottery,”American Economic Review 101, no. 5 (2011)和Sumit Agarwal, Vyacheslav Mikhed,and Barry Scholnick,“Does Inequality Cause Financial Distress?Evidence from Lottery Winners and Neighboring Bankruptcies,”working paper, 2016。
[26] Agarwal, Mikhed, and Scholnick,“Does Inequality Cause Financial Distress?”
[27] Jeffrey Clemens and Joshua D. Gottlieb,“Do Physicians’ Financial Incentives Affect Medical Treatment and Patient Health?” American Economic Review 104, no. 4 (2014). 请注意,这些结果并不意味着医生是邪恶的。事实上,如果进行额外治疗的医生为了更多的报酬去挽救他们本就该挽救的性命,那么结果可能会更令人不安。如果情况是这样的,那就意味着医生需要获得足够的报酬才能安排挽救生命的治疗。相反,克莱门茨和戈特利布的结果表明,无论给医生多少钱,他们都会安排这样的治疗。对于那些没有那么多帮助的治疗,医生必须得到足够的报酬才能安排。另一种说法是:对那些危及生命的东西,很多医生对其带来的金钱刺激不大感冒,而对那些无足轻重的东西能带来的金钱刺激,他们是非常看重的。
[28] Robert D. McFadden and Eben Shapiro,“Finally, a Face to Fit Stuyvesant: A High School of High Achievers Gets a High-Priced Home,”New York Times, September 8, 1992.
[29] 课程可在史岱文森高中的网站上找到:http://stuy.enschool.org/index.jsp。
[30] Anna Bahr,“When the College Admissions Battle Starts at Age 3,”New York Times, July 29, 2014, http://www.nytimes.com/2014/07/30/upshot/when-the-college-admissions-battle-starts-at-age-3.html.
[31] Sewell Chan,“The Obama Team’s New York Ties,”New York Times, November 25, 2008; Evan T. R. Rosenman,“Class of 1984:Lisa Randall,”Harvard Crimson, June 2, 2009;“Gary Shteyngart on Stuyvesant High School: My New York,” YouTube video,posted August 4, 2010, https://www.youtube.com/watch?v=NQ_phGkC-Tk; Candace Amos,“30 Stars Who At-tended NYC Public Schools,” New York Daily News, May 29, 2015.
[32] Carl Campanile,“Kids Stuy High Over Bubba: He’ll Address Ground Zero School’s Graduation,”New York Post, March 22,2002; United Nations Press Release,“Stuyvesant High School’s‘Multicultural Tapestry’ Eloquent Response to Hatred, Says Secretary-General in Graduation Address,” June 23, 2004;“Conan O’Brien’s Speech at Stuyvesant’s Class of 2006 Graduation in Lincoln Center,” YouTube video, posted May 6, 2012, https://www.youtube.com/watch?v=zAMkUE9Oxnc.
[33] 参见https://k12.niche.com/rankings/public-high-schools/best-overall/。
[34] 我对他的名字和部分细节做了处理。——作者注
[35] Pamela Wheaton,“8th-Graders Get High School Admissions Results,”Insideschools, March 4, 2016, http://insideschools.org/blog/item/1001064-8th-graders-get-high-school-admissions-results.
[36] 在寻找像耶尔马兹那样接近分数线的人时,我着实被他们镇住了。他们多是20多岁到50多岁的人,还依然清晰地记得他们年少时参加那次考试的经历,绘声绘色地说着他们落榜的故事。这些人里包括国会前议员和纽约市市长候选人安东尼·韦纳(Anthony Weiner),他在考试中仅因一分之差而落选史岱文森高中。在电话采访中,他告诉我:“他们不想要我。”——作者注
[37] M. Keith Chen and Jesse M. Shapiro,“Do Harsher Prison Conditions Reduce Recidivism? A Discontinuity-Based Approach,”American Law and Economics Review 9, no. 1 (2007).
[38] Atila Abdulkadiroğlu, Joshua Angrist, and Parag Pathak,“The Elite Illusion: Achievement Effects at Boston and New York Exam Schools,”Econometrica 82, no. 1 (2014). 下面的文章得出了相同的结论:Will Dobbie and Roland G. Fryer Jr.,“The Impact of Attending a School with High-Achieving Peers: Evidence from the New York City Exam Schools,”American Economic Journal:Applied Economics 6, no. 3 (2014)。
[39] 参见http://www.payscale.com/college-salary-report/bachelors。
[40] Stacy Berg Dale and Alan B. Krueger,“Estimating the Payoff to Attending a More Selective College: An Application of Selection on Observables and Unobservables,”Quarterly Journal of Economics 117, no. 4 (2002).
[41] Alice Schroeder, The Snowball: Warren Buffett and the Business of Life (New York: Bantam, 2008).
电子邮件里写道:“赛思,劳伦斯·萨默斯(Lawrence Summers)想见你一面。”语气颇有点神秘啊。邮件是我的一位博士生导师劳伦斯·卡茨(Lawrence Katz)发来的。卡茨先生并没有告诉我萨默斯对我的工作感兴趣的缘由,但后来我发现他其实早就知道了。
我坐在萨默斯办公室外的等候室。过了一会儿,这位美国前财政部部长、哈佛大学前任校长兼经济学领域许多著名奖项的获得者把我唤进了屋里。
在正式谈话前,他先读了秘书提前为他打印好的我那篇论述种族主义对奥巴马的影响的论文。萨默斯阅读速度极快,看论文的时候,他不时向右嘴角吐出舌头,眼睛快速地左右移动,一目十行地看下去。萨默斯读社会科学论文的样子让我联想到一位伟大的钢琴家演奏奏鸣曲的场景。他如此专注,似乎整个人都沉浸其中,不到5分钟,他就读完了我这篇30页的论文。
萨默斯说:“你说谷歌上的‘黑鬼’搜索暗示了种族歧视,这是说得通的。这些搜索能预示奥巴马在哪些州比克里获得的支持率低,这太有趣了。我们真的可以把奥巴马和克里视为同类人吗?”
“政治科学家认为他们有着类似的意识形态,”我回答道,“另外,种族主义和众议院投票的变化之间没有什么关联。即使我们加强对人口统计、教堂活动参与和枪支所有权的控制力度,其结果依旧不会改变。”这就是此前我脑海中不断闪现的经济学家之间应有的谈话方式。
萨默斯停了下来,盯着我。他迅速转向办公室里的电视,调到美国全国广播电视公司财经频道(CNBC),然后又盯着我,接着看了一眼电视,又回头看着我。“好吧,我喜欢这篇论文,”萨默斯说,“你还在做什么其他研究吗?”
接下来的60分钟可能是我人生中最充满智慧的欢乐时光了。我与萨默斯谈到了利率和通货膨胀、治安和犯罪、商业和慈善。很多见过萨默斯的人都为其着迷是有因可循的。我十分有幸能在生命中和一些非常聪明的人对话,而萨默斯就是最聪明的那一个。他满脑子都是点子,比任何人都要多,这似乎也是他经常麻烦缠身的原因。他曾经表示,女性科学家为数不多,其中部分原因可能是男性智商更高,此番言论一出,他只得辞去哈佛大学校长一职。如果他发现某个想法很有趣,即便会得罪许多人,他也会直言不讳。
我们的谈话已经超过预先安排好的会面时间半个小时。这次谈话令人心情愉悦,酣畅淋漓,但我仍然不知道自己来这儿是为了什么,不知道我应该什么时候离开,也不知道我如何才能知道应该什么时候离开。就在那时我有种感觉,萨默斯本人可能都已经忘记为什么要和我见面了。
然后,他问了一个价值上百万美元(也可以说是数十亿美元)的问题。“你觉得你能用这些数据预测股市吗?”
啊哈。到最后,这才是萨默斯唤我到他办公室见面的原因。
萨默斯不是第一个问我这一特别问题的人。我父亲向来支持我非传统的研究兴趣,但有一次,他提出了这个问题。他说:“种族主义、虐待儿童、堕胎,你能不能把这些专业知识拿来赚点儿钱?”我的朋友和其他家人提出了同样的疑问,我的同事和网上的陌生人也很关心这个问题。每个人似乎都想知道是否可以使用谷歌搜索或其他大数据来挑选股票,现在则是美国前财政部部长。于是,这个问题就更要严肃考虑了。
那么,新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。
在前文中,我们讨论了大数据的四大功能,而这一章是关于大数据的局限性的——我们无法运用大数据做到的事,有时还包括我们不该运用大数据去做的事。我们可以从我本人和萨默斯试图用大数据打进市场说起。当然我们并没有成功。
在第3章中,我们注意到,当一个特定领域的现有研究还不够深入的时候,新数据很可能会带来巨大的回报。对这个世界来说,这是一个不幸的事实——你将会更加轻松地获得关于种族主义、虐待儿童事件或堕胎行为的新见解,而不是对企业如何运作才能获得新的利润的见解。这是因为已经有大量的资源用于衡量业务绩效了。金融行业竞争激烈,这已经是对我们的巨大打击了。
萨默斯不是一个对他人智慧不以为然的人,他很确信对冲基金(公司)已经走在了人类的前面。在我们的谈话中,他对他人充满敬意,对我的建议多有采纳,相信他人在很多方面领先于我们,这一切都令我深深折服。我自豪地与他分享了一个我设计的算法,这个算法可以让我获得更完整的谷歌趋势数据。他对此表示赞赏。我问他“文艺复兴”(一个定量对冲基金)是否会破解这个算法,他笑着说:“是啊,它们当然算得出来。”
我和萨默斯用新的大数据集击败市场面临的挑战很多,紧跟对冲基金(公司)的困难并非唯一一个基本问题。
假设你预测股票市场的策略是找到一枚幸运币,但这枚幸运币需要通过仔细的测试才能找到。方法如下:用1到1 000这1 000个数字给1 000个硬币编号。在接下来的两年时间里,每天早上你都抛出一枚硬币,记下是正面朝上还是反面朝上,然后记下标准普尔指数当天的涨跌情况。最后,你把所有的数据都检查一遍。瞧!你发现了一些东西。结果显示,391号硬币正面朝上70.3%的情况下标准普尔指数都呈上涨趋势。这种关系极具统计学意义,非常重要。你已经找到了自己的幸运币!
每天早上只要抛出391号硬币,如果正面朝上就买股票。你每天为衣食而愁的日子就要到头了。391号硬币就是你走向美好生活的门票!
抑或不是。
你已经成为“维度的诅咒”中最恶毒一面的又一个受害者。无论何时,只要拥有多个变量(或者说“维度”,在这个例子中就是1 000个硬币)又无须做太多观察(在这个例子中就是两年中的504个交易日),这个方法就有可能奏效,其中一个维度(在这个例子中是391号硬币)可能就很幸运。可如果减少变量的数量(仅抛100枚硬币),其中一个变量成为幸运币的可能性就要小很多,再增加观察的数量(尝试预测标准普尔指数20年的走势),那硬币是根本无法胜任这项工作的。
维度的诅咒是大数据的一个主要问题,因为新的数据集经常会给我们带来比传统数据源更多的变量——每一个搜索词、每一种推文等。许多声称在利用大数据源预测市场的人只不过是被施了魔咒,他们所做的只是找到相当于391号硬币的东西。
例如,来自印第安纳大学和曼彻斯特大学的一组计算机科学家声称,他们可以根据人们发推文的内容来预测市场的走向。[1]他们建立了一种算法,根据推文将全世界每天的情绪进行了编码。他们使用的技术和第3章中所讨论的情绪分析相似,但他们编码的不止有一种情绪,而是包含多种情绪——快乐、愤怒、友善等。他们发现,诸如“我很平静”这类表示冷静的推文,预示着道琼斯工业平均指数有可能在六天后上涨。为了利用他们的这一发现,还专门成立了一个对冲基金。
这有什么问题吗?
根本问题是他们测试了太多东西。如果你测试的事物足够多,就算出于偶然,其中一个事物也会有重大的统计学意义。他们测试了许多情绪。他们在股市开盘一天前、两天前、三天前乃至七天前对每种情绪进行了测试,试图预测其对股市的作用。所有这些变量都被用来试图解释道琼斯工业平均指数几个月以来的起伏。
前六天的平静并不是股票市场的合理预测指标。前六天的平静是我们假设的391号硬币的大数据等值体。根据推文内容成立的那个对冲基金由于收益不佳,在成立一个月后关闭了。[2]
在与维度的诅咒的较量中,试图用推特来跟上市场脚步的对冲基金并不是唯一的战斗力量,一直以来都在努力寻找人类基因密码的无数位科学家也是不屈的战士。
多亏了人类基因组计划,我现在可以搜集和分析人类的完整DNA(脱氧核糖核酸)。这个项目的潜力似乎十分巨大。
也许我们可以找到导致精神分裂症的基因,也许我们可以发现导致老年痴呆、帕金森病和肌萎缩性侧索硬化症的基因。也许我们可以找到让人智商飙升的基因呢。有没有一种基因可以大幅提高智商呢?有没有一种基因可以让你成为天才呢?
1998年,著名行为遗传学家罗伯特·普罗明(Robert Plomin)声称自己找到了答案。他收到了一个包含数百名学生DNA和智商的数据集。他把“天才”(智商高达160或更高)的DNA与普通智商学生的DNA进行了比较。
他发现这两个群体的DNA有一个惊人的差异。这个差异位于6号染色体的一个小角落里,这是一种用于大脑代谢的尚未明确而又十分强大的基因。这个基因名为IGF2r,有一种说法是天才携带该基因的可能性为普通人的两倍。
一篇题为《与高智商相关的基因首获发现》(First Gene to Be Linked with High Intelligence Is Reported Found)的文章登上了《纽约时报》。
你可能会想到因普罗明的发现而引发的许多道德问题。应该允许父母为了IGF2r基因而做产检吗?应该允许父母因孩子智力低下而堕胎吗?我们是否应该通过基因改造提高胎儿的智商呢?IGF2r与种族相关吗?我们想知道这个问题的答案吗?智商的遗传学研究应该继续吗?
在生物伦理学家不得不解决这些棘手的问题之前,对遗传学家,包括普罗明本人来说,有一个更为根本的问题亟待解决——这一结果是否准确?IGF2r是否可以预测智商?天才儿童真的有两倍的可能性携带这一基因的某种变体吗?
答案是否定的。在他最初研究的几年之后,普罗明又得到了另一个包含人们DNA和智商的样本。这一次研究表明,IGF2r与智商无关。普罗明采取了一位优秀科学家应有的做法——收回了他所说过的话。
事实上,这一直是遗传学和智商研究的一般模式。科学家先是报告称,他们已经发现了预测智商的基因变体;然后,他们又得到新的数据,发现自己原来的说法是错误的。
例如,在最近的一篇论文中,由克里斯托弗·查布里斯(Christopher Chabris)领导的一个科学家小组检验了12个关于基因变体和智商关联性的著名主张。他们研究了1万人的数据,却无法再现12个主张中的任何一个关联性。[3]
这些主张的问题究竟出在哪里呢?答案是:维度的诅咒。科学家现在知道,人类基因组千差万别。这很容易理解,因为有太多基因可以用作测试了。
如果你测试了足够多的推文,想验证它们是否与股票市场相关,那么你会偶然发现其中一篇恰好相关。如果你测试了足够多的基因变体,想验证它们是否与智商相关,你也会偶然发现其中某种基因恰好相关。
如何才能克服维度的诅咒呢?你必须对自己的工作保持谦虚谨慎的态度,而不是一味关注结果,难以旁顾。你必须通过附加测试检验这些结果。例如,在你把一生的积蓄都押在391号硬币上之前,你肯定会想看看它在未来几年表现如何。社会科学家称其为“样本外”测试。你尝试的变量越多,就越需要谦虚。你尝试的变量越多,样本外测试就越困难。跟踪记录尝试过的每一个测试也是至关重要的。如此一来,你便可以确切地知道自己成为诅咒受害者的可能性有多大,知道对自己的研究结果应该持什么样的质疑态度。这一点将我们带回我和萨默斯做的事,来看看我们是如何拼尽全力打败市场的。
萨默斯的第一个想法是使用搜索来预测核心产品[如iPhone(苹果手机)],这可能对预测一家公司(如苹果公司)股票未来的表现有一定作用。“iPhone”搜索和iPhone销售之间确实存在关联。当人们对“iPhone”进行大量搜索时,一定有大量手机不断售出。不过,这一信息早已纳入了苹果的股票价格。很明显,当有大量“iPhone”的谷歌搜索时,许多对冲基金也发现iPhone一定会大卖,不管它们是使用搜索数据还是其他数据来源。
萨默斯的下一个想法是预测未来在发展中国家的投资。如果不久的将来有大量投资者涌向巴西、墨西哥等国,那么这些国家的公司股票肯定会上涨。也许我们可以预测,谷歌对投资的关键搜索词将会增加,比如“投资墨西哥”或者“巴西的投资机会”,但事实证明这是一条死胡同。问题出在哪里呢?原因是这样的搜索太少了。这样的搜索数据并没有呈现出有价值的模式,而是零零散散,毫无规律可循。
我们尝试了个人股的搜索。也许如果人们正在搜索“GOOG”(谷歌),就意味着他们即将购进谷歌的股票。这些搜索似乎预示着谷歌的股票会出现大量交易,但并没有预测这些股票是涨还是跌。一个主要限制因素是这些搜索没有告诉我们是否有人有兴趣买入或卖出股票。
有一天,我兴奋地向萨默斯提出一个新的想法:过去搜索“购买黄金”似乎与未来黄金价格的上涨有关。萨默斯说我应该进行测试,看看这个说法是否依然准确。后来发现这种说法已经不奏效了,也许是因为一些对冲基金也发现了同样的关系。
我们耗时几个月,最终却没能在测试中发现任何有用的东西。毫无疑问,如果我们穷尽数十亿个谷歌搜索词条去寻找这些搜索与市场表现的相关性,早就应该找到那个相关的因素了,然而,实在是力不从心啊。它可能只是我们自己的391号硬币罢了。
2012年3月,耶鲁大学市场营销学教授佐薇·钱斯(Zoë Chance)在她位于康涅狄格州纽黑文市市区的办公室的邮箱里收到一个小小的白色计步器,她的研究目的是这个设备(以白天计步数量为衡量标准打分)是如何刺激人们做更多运动的。[4]
接下来发生的事情,也就是她在TEDx[5]演讲中讲的内容,对大数据而言简直就是噩梦。钱斯疯狂地想要增加自己的步数,她开始四处乱走,从厨房到客厅,到餐厅,再到地下室,在办公室里也不停地走。清晨、深夜,每时每刻她都在行走——24小时内走了两万步。她每天数百次检查自己的计步器,与其他很多计步器在线用户一起讨论如何提高分数。钱斯记得,在三岁的女儿走路时,她还把计步器放在女儿身上,她太想要高分了。
钱斯完全沉醉于使分数最大化的过程中,已经失去了理智。她忘记了有人想获得更高分数的原因是运动,而不是让女儿多走几步。她也没有完成关于计步器的任何学术研究。一天晚上她熬着夜,疲惫不堪,想要多走几步路,最后她终于放弃了这个设备。虽然她是一位相信数据的专业研究人员,但这次体验深刻地影响了她。钱斯说:“这让我怀疑获得更多的数据是不是总是一件好事。”
这是一个极端的故事,却指出了人们使用数据做决定存在的潜在问题。数字可能极具诱惑力[6],我们可能会越来越依赖它们,也会因此忽略很多更重要的考量因素。佐薇·钱斯在她生命中余下的时光里便或多或少地忽略了一些东西。
即使不那么醉心于数字的做法也难免有弊端。看看21世纪的美国学校吧,他们看重学生的考试成绩,并根据学生的分数来评判教师。虽然对课堂教学活动采取更客观的评价措施的愿望是合理的,但教学过程中的许多瞬间是无法以数字的形式轻易捕捉到的。而且,所有这些测试都迫使许多教师进行应试教学,甚至还有更糟的事情发生。布赖恩·雅各布(Brian Jacob)和史蒂芬·列维特曾在一篇论文中证明:有一小部分人在管理这些测试的过程中根本就是在弄虚作假![7]
这个问题在于:我们可以测量的东西往往不是我们真正关心的事情。我们可以估量学生在多项选择题上的表现,却不能轻易评判其批判性思维、好奇心或个性发展。只是试图增加一个单一的、易于衡量的数字,比如测试得分或一天中走路的步数,并非总是有助于实现我们真正想要实现的目标。
在优化网站的过程中,脸谱网也遇到了这种危机。该公司有大量关于人们如何使用公司网站的数据,很容易就可以知道一个特定的新闻推送是否被点赞、点击、评论或分享,但是据谷歌数据科学家亚历克斯·佩萨克维奇(Alex Peysakhovich,我与他共同完成了这部分内容的写作)看来,这些数据都无法替代一个更重要的问题——这个网页的用户体验如何?这个故事将她和自己的朋友联系起来了吗?她从这里了解到这个世界了吗?这里让她开怀了吗?
或者再看看20世纪90年代棒球的数据革命吧。当时许多团队开始使用越来越复杂的统计数据,而不是依靠传统的人类球探来做决定。进攻和投球估量起来容易,防守可就难了,所以一些球队最终输在了低估防守的重要性上。事实上,纳特·西尔弗在其著作《信号与噪声》(The Signal and the Noise)一书中估计,奥克兰运动家队[电影《点球成金》(Moneyball)中一支依赖数据分析的球队]因为漏洞百出的防守,在20世纪90年代中期每年都会输掉8~10场比赛。
其解决方案并非总是更大的数据。为了让大数据充分发挥其作用,有一种特殊的调味剂通常是必不可少的:对人类和小型调查的判断,我们可以称之为小数据。时任运动家队总经理兼电影《点球成金》主人公人物原型的比利·比恩(Billy Beane)在接受西尔弗采访时说,他实际上已经开始增加自己的球探预算了。
为了填补其庞大数据池的众多缺口,脸谱网也必须采取传统的方法:询问人们的想法。每天,他们在加载“新闻推送”的同时,还会给数百名脸谱网用户发送一些问题,这些问题和用户刚刚浏览的新闻推送相关。换句话说,脸谱网自动收集的数据集(点赞、点击、评论)会由更小的数据(“你想在新闻推送中看到这篇文章吗?”“为什么?”)进行补充。是的,即使是像脸谱网这样非常成功的大数据公司有时也会使用本书中“备受蔑视”的信息来源:一个小小的调查。
实际上,由于需要小数据作为其主体部分(巨大的点击量、点赞数和发帖量)的补充,脸谱网的数据团队看起来可能和你猜想的不一样。脸谱网雇用社会心理学家、人类学家和社会学家正是为了找到数字错过的东西。
一些教育工作者也越来越关注大数据的盲点,他们正在举全国之力不断以小数据来填补质量测试的不足。对学生的调查增加了,对家长的调查增加了,对教师的观测也越来越多,会请有经验的教师旁听,在课堂中观察一个教师的表现。
哈佛大学教育学教授托马斯·凯恩(Thomas Kane)表示:“很多学区意识到他们不应该只关注考试成绩。”[8]比尔和梅琳达·盖茨基金会进行过为期三年的研究,证明了大数据和小数据的教育价值。笔者分析了考试分数模型、学生调查和教师观测三种方式中哪一种最适用于衡量哪些教师可以最有效地改善学生的学习状况。当他们把这三种方式合并为一个综合评分体系时,得到了最好的结果。报告总结说:“每种评价方式都增加了一些有价值的东西。”[9]
事实上,就像我到佛罗里达州奥卡拉拜访杰夫·塞德时发现的一样,许多大数据公司都在使用小数据来填补漏洞。还记得杰夫·塞德吧,那个毕业于哈佛大学的相马专家,他利用从庞大的数据集中汲取的经验教训预测了“美国法老王”的成功。
在和我分享了所有的计算机文件和数学知识后,塞德告知我他有另一个武器:帕蒂·默里(Patty Murray)。
默里和塞德一样,拥有超高的智商和傲人的资历——毕业于布林莫尔学院。她也离开了纽约来到农村生活。默里坦承“我喜欢马多过喜欢人”。但是,默里在评估马的方法上更传统一些。她和许多赛马经理人一样,亲自检查马匹,看它们如何行走,检查疤痕和瘀伤,并询问它们的主人问题。
然后,默里与塞德合作,最终挑选出他们想要推荐的赛马。默里嗅出了马匹的问题,塞德的数据尽管是有史以来搜集的最具权威性、创新性和重要性的数据集,但依然存在纰漏。
我预测,大数据的革新将会带来一场革命,但这并不意味着我们可以用数据解决一切问题。大数据无法消除千年来人类探索出来的认识这个世界的所有方法,它们互为补足。
[1] Johan Bollen, Huina Mao, and Xiaojun Zeng,“Twitter Mood Predicts the Stock Market,”Journal of Computational Science 2,no. 1 (2011).
[2] James Mackintosh,“Hedge Fund That Traded Based on Social Media Signals Didn’t Work Out,”Financial Times, May 25, 2012.
[3] Christopher F. Chabris et al.,“Most Reported Genetic Associations with General Intelligence Are Probably False Positives,” Psychological Science (2012).
[4] 这一讨论详见TEDx Talks,“How to Make a Behavior Addictive:Zoë Chance at TEDx Mill River,” YouTube video, posted May 14,2013, https://www.youtube.com/watch?v=AHfiKav9fcQ。一些细节如计步器的颜色,已在采访中做过补充了。我于2015年4月20日通过电话采访了佐薇·钱斯,并于2016年7月11日和2016年9月8日通过电子邮件对她进行了采访。
[5] TEDx,是由非营利机构TED于2009年推出的一个项目。TED由科技(technology)、娱乐(entertainment)、设计(design)的首字母组成,x代表独立组织的TED活动。——编者注
[6] 这部分内容引自Alex Peysakhovich and Seth Stephens-Davidowitz,“How Not to Drown in Numbers,”New York Times, May 3,2015, SR6。
[7] Brian A. Jacob and Steven D. Levitt,“Rotten Apples: An Investigation of the Prevalence and Predictors of Teacher Cheating,”Quarterly Journal of Economics 118, no. 3 (2003).
[8] 2015年4月22日,我对托马斯·凯恩进行了电话采访。
[9] Bill and Melinda Gates Foundation,“Ensuring Fair and Reliable Measures of Effective Teaching,” http://k12education.gatesfoundation.org/wp-content/uploads/2015/05/MET_Ensuring_Fair_and_Reliable_Measures_Practitioner_Brief.pdf.
有时候,大数据的力量之所以令人瞩目,是因为这些数据令人不寒而栗。这就引发了一些道德问题。
最近,来自哥伦比亚大学的奥代德·内策(Oded Netzer)、阿兰·勒迈尔(Alain Lemaire)和特拉华大学的米甲·赫岑施泰因(Michal Herzenstein)这三位经济学家都在寻找预测借款人偿还贷款可能性的方法。[1]这些学者利用来自P2P(个人对个人)贷款网站Prosper的数据。潜在的借款人会写一个简要介绍,说明为什么他们需要贷款,以及为什么他们可以如期还款,潜在的贷款人据此决定是否为他们提供贷款。总体来看,大约有13%的借款人拖欠过贷款。[2]
事实证明,潜在借款人说的话是他们偿还概率强有力的预测指标。即使贷款人了解了潜在借款人的其他相关信息,包括信用评级和收入,他们的措辞也是一个重要的指标。
以下列出的是研究人员发现在申请贷款时最常用到的10个短语,其中5个与偿还贷款概率呈正相关,5个与偿还贷款概率呈负相关。换句话说,5个是你可信任的人使用的,5个是你不能信任的人使用的。看看你能否猜到它们分别是什么(见表8–1)。
表8–1 申请贷款时最常用到的10个短语
你可能会想(或者至少希望)一个说出自己需求的有礼貌的、直率的宗教人士或许是最有可能偿还贷款的人,但事实并非如此。数据显示,这种类型的人偿还贷款的能力一般低于平均水平。
表8–2和表8–3是按偿还贷款的可能性分组的短语。
表8–2 可能偿还贷款借贷人所用短语
表8–3 可能不偿还贷款借贷人所用短语
在讨论这项研究的道德含义之前,让我们在这些研究人员的帮助下,仔细思考一下该研究向我们揭示了人们的哪些方面。我们应该如何理解这两种不同类别的短语?
首先,咱们一起看看表明人们更有可能偿还贷款的用词。诸如“更低利率”或“税后”等短语表明借款人对金融之道有一定了解,所以将这些词与更有可能偿还贷款的人联系起来也许并不奇怪。另外,如果他谈到自己是“本科毕业”“无债务”等正面的因素,也有可能会偿还贷款。
其次,咱们再来看看表明人们不太可能偿还贷款的用词。一般来说,如果有人告诉你他会还你钱,那他很有可能不还了。承诺越是坚决肯定,就越有可能无法兑现。如果有人写下“我保证我一定会还钱,上帝求你帮帮我吧”,他是最不可能还的。激起你的怜悯之心(他解释说,他需要这笔钱,因为他的亲戚在住“医院”)也意味着他不太可能还钱。事实上,提到任何家庭成员(丈夫、妻子、儿子、女儿、母亲或父亲)都是不会还钱的标志。另一个暗示会违约的词是“解释”,意思是说,如果人们试图解释为什么自己能够偿还贷款,那他们很可能不会还款。
研究人员没有理论来说明为什么“感谢”他人是可能违约的证据。
总而言之,根据这些研究人员的研究,一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。不管理由是什么(或者它展示给我们的人性就是,许下承诺实际上是什么事都不会做的信号),学者发现这个测试对预测不会偿还贷款是非常有价值的信息。提到上帝的人拖欠债务的可能性为不提上帝的人的2.2倍。这是一个人不会还款的单项最高指标之一。
几位研究人员也认为他们的研究引发了一些道德问题。虽然这只是一项学术研究,但一些公司确实报告称,他们的确在利用在线数据批准贷款。这种方法可以接受吗?让众多公司利用我们写下的词来预测我们是否会偿还贷款,我们真的想生活在这样一个世界里吗?这起码会让人毛骨悚然,而且很有可能会让人恐慌不已。
在不久的将来寻求贷款的消费者可能不仅要担心自己的财务历史,而且要担心自己的线上活动。她可能会被看似荒谬的评判方式打上标签,比如她说了“谢谢”,或者求“上帝”保佑。说得更远一点,假如一个女人真的急需这笔钱来帮助住院的妹妹,并且她将来一定会偿还这笔债务呢?一般来说,声称需要医疗费用帮助的人经常被证明是在撒谎,可因此而惩罚她是不是过于残忍呢?一个以这种方式运作的世界会开始呈现令人绝望的模样。
这就是那个道德问题:企业是否有权根据与其提供的服务不直接相关的抽象统计学预测标准来判断人们是否可以享受其服务呢?
先不看财务领域,来看看受这种评判方式影响更大的领域,以聘用为例。在考量求职者条件时,雇主越来越多地搜集社交媒体的信息。如果他们寻找求职者在背地里说前雇主的坏话或者泄露前雇主秘密的证据,可能不会引发什么道德问题。他们甚至还可以因某人的脸谱网或照片墙表明其酗酒而拒绝录用他,这种理由也不可谓不合理,但是,如果他们发现一个看似无害,实则与他们在意的事情紧密相关的指标又会如何呢?
剑桥大学和微软的研究人员向美国的58 000名脸谱网用户提供了关于他们个性与智力的各种测试。他们发现,脸谱网的点赞常常与智商、外向的性格和责任心相关。[3]例如,脸谱网上喜欢莫扎特、雷雨天气和卷曲薯条的人往往智商较高,喜欢哈雷–戴维森摩托车、乡村音乐团体“战前女神”或者“我爱当妈妈”这个页面的人往往智商较低。其中一些相关性可能是源于维度的诅咒。如果你测试了足够多的东西,一些东西便会随机地联系起来,但一些兴趣可能与智商正相关。
如果一个喜欢哈雷的人很聪明,却不能得到与其技能相称的工作,这是不公平的,因为他没有意识到这一点会表明智力低下。
公平地说,这并不是一个全新的问题。长期以来,人们一直受到与工作表现不直接相关的因素的评判,比如握手力度或衣着的整洁性。数据革命带来的一个危险是,随着我们的生活不断被量化,这些替代判断因素可能会变得更加神秘,但也更具侵略性。更准确的预测可能会导致歧视更加微妙,也更恶毒。
更好的数据也可能导致另一种形式的歧视,经济学家称之为价格歧视。企业常试图确定应该为其商品或服务收取多少费用,理想情况下,他们希望收取客户愿意支付的最大费用。这样,他们就能获得最大的利润。
大多数企业最终都会选择一个所有人都愿意支付的价格,不过他们有时候会意识到某个特定群体的人平均会支付更高的价格。这就是电影院对中年顾客(依据其赚钱能力)收取的费用要比学生或老年人高,航空公司常向最后时刻购票者收取更多费用的原因。这就是看人定价格。
大数据可以让企业更准确地了解顾客愿意支付多少钱,进而哄骗某些群体。“最优决策小组”运用数据科学预测消费者愿意为购买保险支付多少钱。他们是怎么做的呢?其方法本书已有论述。他们找到了与现今看似想买保险的人最相似的老顾客,然后查看这些老顾客最多能承受多少溢价。换句话说,决策小组的人进行了二重身搜寻。若能预测一位棒球运动员能否重回巅峰,那么二重身搜寻就很有趣;若能帮助治愈疾病,那么它就是有用的。但若帮助一个公司榨取你身上的每一分钱,这样的做法又如何呢?一点儿也不酷!若是这样,我那挥金如土的弟弟就算在网上比我这个吝啬鬼花的钱多,他也是有权利抱怨的。
在赌博领域,放大顾客信息的能力具有潜在的危险性。大型赌场一直在用类似二重身搜寻的工具来更好地了解其顾客。他们的目标是什么?是尽最大可能榨取利润——确保你口袋里的钱更多地流入他们的腰包。
运作方式是这样的:赌场工作人员认为,每个赌徒都有一个“痛点”。这个“痛点”是赌徒在赌场损失的数额,这个数额大到足以令他害怕,所以在很长一段时间内他都不敢再踏进赌场半步。例如,假设海伦的“痛点”是3 000美元,这就意味着,如果海伦输掉3 000美元,赌场就会失去这位顾客,可能几周或几个月都见不到她;如果海伦输掉2 999美元,她也会不高兴,毕竟没有人喜欢输钱,但是她不会因此意志消沉,第二天晚上还会照样出现在赌场。
想象一下,假如你是赌场的管理者,而海伦就在你的赌场玩老虎机,最佳结果是什么呢?很显然,你想让海伦尽可能地接近其“痛点”却又不超过它。你想让海伦输掉2 999美元,这样你赚得够多,而她又不至于输到自己短时间内不想再回来玩。
怎么做到这一点呢?其实,有很多办法能让海伦一旦输掉一定的钱就停止赌博。例如,可以为她提供免费餐点。如果食物足够诱人,她就会离开老虎机去吃好吃的了。
这一方法有个很大的问题:如何知道海伦的“痛点”?问题是每个人的“痛点”各不相同。海伦的是3 000美元,约翰的可能是2 000美元,本的可能就是26 000美元。如果在海伦输掉2 000美元时就说服她停止赌博,那么你就捞不着最大利润。如果你等太长时间(一直到她输掉3 000美元后),你就会在一段时间内失去她这个收入来源。进一步说,海伦可能不想告诉你她的“痛点”,而且连她可能都不知道自己的“痛点”是多少。
那么,你会怎么做呢?本书读到此处,你可能已经猜到了答案:利用数据科学。你可以了解许多顾客的所有信息,包括年龄、性别、邮编和赌博行为,根据其赌博行为(盈利、亏损和进出场记录)就可以大致估算其“痛点”。
搜集你所知道的有关海伦的所有信息,然后找出与她最相似的赌徒,也就是她的二重身。接着,弄清楚他们能承受多大的痛苦,也许和海伦能承受的一样多。事实上,哈拉斯娱乐公司就是这么做的,利用大数据仓库公司Terabyte来助他们一臂之力。
Terabyte总经理斯科特·格瑙(Scott Gnau)在其畅销书《超级数字天才》(Super Crunchers)中解释了赌场经理看到老顾客临近“痛点”时的做法:“他们会走出来,然后说:‘我看你今天手气不太好,我知道你喜欢我们的牛排馆。这边,先带你夫人去吃晚餐吧。’”
提供一顿免费的牛排看起来似乎很慷慨,但实际上是有私心的。赌场只是想在这些赌徒输红眼之前让他们停下来,否则他们很可能会因输太多而在一段时间内放弃赌博。换句话说,赌场管理层正在运用复杂的数据分析,努力从顾客身上榨取尽可能多的利润,他们想放长线,钓大鱼。
我们有权利担心在线数据越来越好用会让赌场、保险公司、贷款机构和其他企业实体对我们施加更大的影响。
另外,大数据也能让消费者对那些收取过高费用或提供劣质产品的企业进行有力的回击。
消费者的一个重要武器就是点评网站,比如Yelp,该网站公开发布用户对美国餐馆和其他服务机构的点评信息。哈佛大学经济学家迈克尔·卢卡(Michael Luca)最近的一项研究显示了企业受Yelp点评信息的影响程度。[4]他将这些评论与华盛顿州的销售数据进行了对比,发现Yelp上的评价每少一颗星,这家餐馆的收入就会下降5%~9%。
此外,消费者也可以通过比较购物网站(如Kayak和Booking.com)与商家斗智斗勇。正如《魔鬼经济学》(Freakonomics)一书中所讨论的那样,当一个互联网网站开始报道不同公司对定期寿险的定价时,这些价格就会急剧下降。如果一家保险公司收取的费用过高,顾客就会发现这一点,然后选择另一家保险公司。这能为消费者省下多少钱呢?每年10亿美元!
换句话说,互联网数据可以告诉企业应避开哪些顾客,又应该剥削哪些顾客;也可以告诉顾客他们应跳过哪些企业,又是哪些企业在试图剥削他们。迄今为止,大数据推动了消费者和企业之间的斗争,但我们必须确保这一斗争公平。
当阿德里安娜·多纳托(Adriana Donato)的前男友出现在一个生日聚会上时,她知道他十分沮丧。她知道他很狂躁,她也知道他曾经与抑郁症抗争过。当他说要载她一程的时候,有一件事多纳托这个20岁的动物学专业学生还蒙在鼓里。她不知道她的前男友,22岁的詹姆斯·斯托纳姆(James Stoneham),在过去的三个星期里一直在搜索如何谋杀他人和谋杀法的相关信息,偶尔还会搜索一下多纳托。
如果她知道这件事,大概就不会上他的车了,很可能那天晚上她也就不会被刺死。
在电影《少数派报告》(Minority Report)中,心理学家与警方合作,成功阻断多起犯罪行为的发生。我们是否也应该让大数据为警方所用以阻止犯罪行为的发生呢?多纳托是否至少应该提前被告知她前男友曾搜索过违禁内容呢?警方是否应该在悲剧发生前就审讯斯托纳姆呢?
必须承认,越来越多的证据表明与犯罪活动有关的谷歌搜索确实和犯罪活动有着千丝万缕的关系。克里斯蒂娜·玛–凯拉姆斯(Christine Ma-Kellams)、弗洛拉·奥尔(Flora Or)、白志贤(Ji Hyun Baek)和河内一郎(Kawachi Ichiro)等人表示,与自杀相关的谷歌搜索和一个州的自杀率密切相关。[5]如果有更多的人进行搜索时输入他们想做什么事,也就有更多的人会做这样的事。
那么,我们应该如何处理这些信息呢?有一个简单且毫无争议的点子:我们可以利用地区层面的数据来分配资源。如果一座城市的自杀相关搜索量激增,我们就可以提高这个城市的自杀预防意识。例如,市政府或非营利性组织可以播放商业广告来告知人们在什么地方可以获得帮助。
但是,我们应该非常不情愿走到这一步:在犯罪行为发生之前就追究个人的责任。首先,这似乎是对隐私的侵犯。无论是拥有数千或数十万人搜索数据的政府,还是拥有个人搜索数据的警察部门,在他们面前都有一道不可逾越的道德鸿沟。比如搜查某人的住所,在其面前就有一道不可逾越的道德鸿沟。无论是广告预防自杀,还是违背他人意愿将其送进精神病院,在其面前仍然有一道不可逾越的道德鸿沟。
然而,谨慎使用个人数据的理由甚至是超出道德层面的,还有一个数据理由。从试图预测一座城市的行为到试图预测一个人的行为,对数据学家来说是一个巨大的难题。
让我们暂且回到自杀的话题。每个月,美国有大约350万次搜索与自杀相关,其中大多数都透露出自杀的想法,例如“想自杀”“实施自杀”“如何自杀”。[6]换句话说,每个月每100个美国人中就会有不止一次自杀的相关搜索。这让人想起哲学家尼采的一句话:“自杀的想法是一个很大的安慰,凭借它可以熬过无数个黑夜。”谷歌搜索数据显示,自杀的想法真实存在且十分普遍,但是,每个月美国的自杀人数不到4 000。自杀的想法非常普遍,自杀行为却并非如此。因此,尽管有人在网上大呼小叫地喊着想一枪崩了自己的脑袋——如果不是出于这个原因,警察又怎么会专程赶去这些人家呢——也没有必要天天守在他们家门口,那样做没什么意义。
从理论上来说可能存在一些类别的搜索,这些搜索表明可怕的后续事件发生的可能性相当之大。例如,数据科学家未来可以建立一个模型,这个模型能够发现斯托纳姆关于多纳托的搜索是非常令人担忧的问题,至少从理论上来说建立这一模型是可能的。
2014年,大约有6 000个“如何杀死你的女朋友”的精确搜索和400起女友谋杀案。如果所有这些凶手事先都做了这个精确的搜索,那么在15个搜索“如何杀死你的女朋友”的人中,就有一人实践了这一想法。当然,杀死女朋友的许多人,或者是大多数人,并没有进行这个精确的搜索。这意味着这个特定搜索导致谋杀的真正可能性较小,而且可能非常小。
如果数据科学家能够建立一个可以体现对特定个体的威胁的模型,比如100个中有1个,我们就可以用这个信息来做些什么。至少受到威胁的人有权知道她有1%的可能遭到某一特定的人的杀害。
然而,总的来说,我们必须非常谨慎地使用搜索数据来预测个人层面的犯罪。数据清楚地告诉我们,虽然有很多可怕的搜索,但很少会有此类行为发生。迄今为止,还没有任何证据表明,政府可以通过检查这些搜索预测到十分可怕且发生率极高的行动。所以,在政府依靠数据干预个人犯罪层面,我们务必要小心谨慎。这不仅仅是出于道德或法律的原因,至少目前来说这也是出于数据科学的原因。
[1] Oded Netzer, Alain Lemaire, and Michal Herzenstein,“When Words Sweat: Identifying Signals for Loan Default in the Text of Loan Applications,” 2016.
[2] Peter Renton,“Another Analysis of Default Rates at Lending Club and Prosper,” October 25, 2012, http://www.lendacademy.com/lending-club-prosper-default-rates/.
[3] Michal Kosinski, David Stillwell, and Thore Graepel,“Private Traits and Attributes Are Predictable from Digital Records of Human Behavior,”PNAS 110, no. 15 (2013).
[4] Michael Luca,“Reviews, Reputation, and Revenue: The Case of Yelp,” unpublished manuscript, 2011.
[5] Christine Ma-Kellams, Flora Or, Ji Hyun Baek, and Ichiro Kawachi,“Rethinking Suicide Surveillance: Google Search Data and Self-Reported Suicidality Differentially Estimate Completed Suicide Risk,”Clinical Psycho-logical Science 4, no. 3 (2016).
[6] 这一计算使用了我的个人网站上关于自行堕胎说明中讨论的方法。我将谷歌类别“自杀”中的搜索与“如何打领带”的搜索做了比较。2015年有660万次谷歌搜索“如何打领带”,自杀类别搜索量是其6.5倍。6.5×6.6 / 12»3.5。
签完图书出版合同后,我对本书的结构有了清晰的想法。你可能还记得,我在开头部分描述了我家感恩节餐桌上的场景。我的家人对我是否心智健全颇有争议,都在试图搞清楚为什么我都33岁了,却还找不到心仪的姑娘。
因此,本书的结论实际上会自己发展下去。我会遇到那个心仪的姑娘,并娶她为妻。如果能依靠大数据来遇见这个姑娘,那就更好了,或许我还可以在追求她的过程中加入一些珍闻趣事。那么,这个梦想一下子在本书的结论中实现了,结论可以描述我结婚当日的场景,也可以作为情书送给我的新婚妻子。
只可惜,生活总是事与愿违。将自己锁在公寓,与世隔绝,专心写书可能对我的感情生活毫无帮助。哎,可我还得找个老婆。更重要的是,我需要一个新的结论。
为了得出一个超级棒的结论,我仔细钻研了很多我钟爱的书籍。我断定,最好的结论会将一个始终存在,只是隐藏在事物表面之下的重要观点公之于众。对本书而言,这个观点就是:社会科学正在成为一门真正的科学,而且这一新的、真正的科学将会改善我们的生活。
在本书第二部分的开头,我讨论了卡尔·波普尔对西格蒙德·弗洛伊德的批判。我指出,波普尔认为弗洛伊德古怪的世界观不符合科学规律,但我没有提到波普尔的评论。实际上,这个观点并不只是对弗洛伊德的攻击。波普尔认为,任何社会科学家都是不够科学的。波普尔认为这些所谓的科学家的工作并不严谨。
是什么促使波普尔发起这番“讨伐”的呢?[1]在与当时最优秀的知识分子(包括最好的物理学家、历史学家和心理学家)交流时,他发现了一个惊人的差异。当物理学家讲话时,波普尔相信他们的工作。诚然,这些物理学家有时会犯错,有时会被自己的潜意识偏见欺骗,但他们参与了一个过程,这一过程很显然是在寻找有关世界的深奥真理,最终因爱因斯坦的相对论而达到顶峰。可当这些世界上最著名的社会科学家讲话时,波普尔却认为他在听废话。
波普尔并不是唯一一个发现这一差异的人,几乎每个将物理学家、生物学家和化学家视为真正的科学家的人都会发现这一差异。物理学家可以利用严谨的实验找出物理世界的运行方式,相反,许多人认为经济学家、社会学家和心理学家是“软科学家”,只需抛出一些毫无意义的术语便可获得终身职位。
过去,这话在很大程度上是真的,但是,大数据革命改变了这一点。如果今天卡尔·波普尔尚在人世,参加了一个报告会,出席人员还有拉杰·切蒂、杰西·夏皮罗、埃丝特·迪弗洛或我本人(让我幽自己一默),我强烈怀疑他就不会再有当时的反应了。说实话,他可能会更多地质疑当今伟大的弦理论家究竟是真正的科学家,还是仅仅在自我放纵。
如果一部暴力电影在某座城市上映,那么这座城市的犯罪率是会上升还是下降呢?如果更多的人看过某一广告,那么会有更多的人使用广告中的产品吗?如果一支棒球队在一个男孩20岁时夺冠,那么当他40岁时还会支持这支球队吗?这些都是明确的问题,也有明确的答案。在海量的真实数据里,我们能找到这些问题的答案。
这是科学事件,不是伪科学。
这并不意味着社会科学革命将以简单、永恒的定律形式出现。
麻省理工学院已故科学家马文·明斯基(Marvin Minsky)是最早研究人工智能可能性的科学家之一,他认为心理学是因试图模仿物理学而偏离轨道的。物理学成功找到了在任何时候、任何地方都适用的简单定律。
明斯基认为,人脑可能不受此类定律的约束。相反,人脑很可能是一套复杂的黑客系统——其中一部分可以纠正其他部分出现的错误。经济和政治系统可能同样复杂。
因此,社会科学革命不可能以简洁的公式形式出现,如E=MC2。如果有人说社会科学革命以一个简洁的公式为基础,对此你应该持怀疑态度。
相反,社会科学革命的进程是零敲碎打的,一项研究接着一项研究,一项发现接着一项发现。慢慢地,我们就可以更好地理解人类思想和社会的复杂系统。
我们得出了正确的结论,也指明了未来更多问题的研究方向。
对本书而言,其实很简单。我在本书中讨论过的数据集是革命性的,但几乎没有人研究过它们,我们还有很多东西需要学习。坦率地说,绝大多数学者忽略了数字时代造成的数据爆炸。世界上最著名的性研究者坚持用可靠、有效的方法。他们采访了数百个研究对象,调查了这些研究对象的愿望,他们不会从色情网站上搜寻数据。世界上最著名的语言学家分析个体文本,他们通常忽略数十亿本书中所揭示的模式。在心理学、政治科学和社会学研究生课程中,为师者所传授的大部分方法都没有受到数字革命的影响。因数据爆炸而开辟的广阔且仍有待完全开发的领域留给了少数有远见的教授、叛逆的研究生和业余爱好者。
这一点终将改变。
对于我在本书中谈到的每一个想法,都有100个同样重要的想法亟待处理。在这里讨论的研究只是冰山一角、沧海一粟。
那么,还有什么问题需要讨论呢?
其中之一是有史以来最成功的公共卫生研究中使用的方法迅速普及。19世纪中叶,英国物理学家约翰·斯诺(John Snow)对导致伦敦霍乱暴发的原因饶有兴趣。
他的绝妙想法是:把城里所有的霍乱病例都标记在地图上。[2]当他这样做时,发现这种疾病主要集中在一个特定的水泵周围。这说明霍乱是通过细菌滋生的水源传播的,据此他推翻了当时霍乱通过有害空气传播的传统观念。
大数据以及由此带来的方法功能使此类研究越来越容易。对于任何疾病,我们都可以研究谷歌搜索数据或其他数字卫生数据。我们可以发现这个世界上这种疾病是否在某些小片区域的发病率高或低得异乎寻常,然后就可以找出这些地方的共同点。是空气有问题吗,还是水源,抑或是社会规范?
我们可以用这种方法治疗偏头痛、肾结石、焦虑、抑郁、老年痴呆症、胰腺癌、高血压、背痛、便秘和流鼻血。我们可以用它做任何事。斯诺曾经做的分析研究,如今借助大数据我们可以做400次(写作本书的时候,我就已经着手这项研究了)。
我们可以称之为大规模科学,即采取一种简单的方法,利用大数据在短时间内进行数百次分析。毫无疑问,社会科学和行为科学的规模一定会扩大。还有一种手段也有助于这两门科学扩大规模:A/B测试。我们讨论了在企业让用户点击标题和广告的情况下进行的A/B测试,这一直是该方法的主要用途。相比让人们点击广告的箭头,A/B测试还可以用于发现更基本、更有社会价值的东西。
美国西北大学的经济学家本杰明·F.琼斯正试图运用A/B测试更好地帮助孩子们学习。他协助创建了一个名为EDU STAR的平台,可以让学校随机测试不同的课程计划。[3]
许多公司都从事教育软件业务。有了EDU STAR这一平台,学生只要在电脑上登录网页,就可以随机参与不同的课程计划,然后他们可以通过进行简短的测试检测自己的学习情况。换句话说,学校要了解哪个软件对帮助学生掌握知识的效果最好。
与所有强大的A/B测试平台一样,EDU STAR也在不断制造惊人的成绩。令许多教育工作者为之振奋的一项课程计划便包含一个利用游戏为学生讲授分数的软件。当然,如果把数学变成一个游戏,学生就会发现更多乐趣,学得更多了,得分也会更高,对吧?可这是错误的想法。与那些用更标准的方法学习分数的学生相比,通过游戏学习分数的学生考试的得分反而更低。
硅谷曾经率先做过一项测试,即引导人们点击更多广告,而让孩子学习更多东西则是对这一测试进行的令人振奋且有社会价值的运用。让人们睡眠时间更长也一样,都是有效的运用和尝试。
美国人平均每晚睡眠时间为6.7个小时,不过大多数人想睡得更多一些,但是一到晚上11点左右,体育频道的节目就开始了,视频网站优兔也在频频召唤,因此睡觉的事就往后推。拥有数十万名用户的可穿戴设备公司Jawbone进行了数千次测试,试图找到干预措施,以此来帮助其用户做他们想做的事:早点儿睡觉。
Jawbone双管齐下,取得了巨大的成功。首先,公司要求用户确立一个不那么雄心勃勃的目标,给他们发一条这样的信息:“看起来你最近三天都没好好睡觉,为什么不试试今晚11点半前就上床睡觉呢?我们知道你通常早上8点就起床。”这样,用户就可以选择回复“好的,就这么着”。
其次,10点半一到,Jawbone公司再发一条信息:“我们一致决定让你在11点半睡觉,现在已经10点半了,为什么不现在就上床呢?”
Jawbone发现运用这个策略可以让用户额外多睡23分钟。其实他们并没有使用户在10点半就上床睡觉,但确实让其睡觉时间提前了。
当然,这个策略的每一部分都必须通过大量试验进行优化。将最初的睡觉时间目标定得过早(要求用户在晚上11点前就睡觉),可能就不会有人愿意参与这个活动了。若是要求用户在半夜12点前睡觉,那这一策略就不会取得任何效果了。
Jawbone运用A/B测试为顾客找到了更多睡眠时间,其功用与谷歌右指向箭头可谓异曲同工。虽然没有为谷歌的广告伙伴赢得更多点击量,但是该公司为疲惫的美国人带来了更多休息时间。
事实上,整个心理学领域都可以用硅谷的工具来显著改进他们的研究。我非常期待第一篇心理学论文的发表,这篇论文没有详细介绍与几个本科生做的试验,而是展示了1 000项快速A/B测试的结果。
以往很多学者会历时数月招募为数不多的本科生完成一项测试,而今这种日子终于要结束了。取而代之的是,在短短数秒之内,学者就可以运用数字数据测试数百乃至数千个想法。我们将可以在更短的时间内收获更多。
文本数据可以教给我们更多东西。想法如何传播?新词如何产生?单词如何消失?笑话如何形成?为何有些话很好笑,其他话则不好笑?方言如何发展?我敢打赌,20年内,我们一定会对这些问题有深刻见解。
我认为我们可以将孩子们的网上行为(恰当地匿名)作为传统测试的补充,以此来查看他们如何学习、如何成长。他们单词拼写得怎么样?有阅读障碍的迹象吗?他们在培养成熟、益智的兴趣吗?有朋友吗?每个孩子每天数千次敲击键盘的行为中隐藏着以上所有问题的线索。
还有在另一个不那么重要的领域,我们会发现更多的见解。
在歌曲《支离破碎》(Shattered)中,滚石乐队主唱米克·贾格尔描述了让大苹果城——纽约市如此神奇的东西:欢声笑语、孤独寂寞、老鼠臭虫、骄傲贪婪,以及人们身上穿着的纸袋。贾格尔用了最具代表性的词来形容这座城市真正的特色:“性,除了性还是性。”
与大苹果城一样,大数据也是如此。多亏了数字革命,我们才能在卫生领域获得真知灼见。睡眠,学习,心理学,语言,性,性,性,还是性!
目前我正在研究的一个问题是:性的维度有多少?我们通常认为一个人不是同性恋者就是异性恋者,但显然性要比那复杂得多。在同性恋者和异性恋者中,每个人喜欢的类型各不相同。例如,有人喜欢“金发女郎”,其他人喜欢“深发美女”。对头发颜色的偏好与对性的取向一样强烈吗?我研究的另一个问题是:性取向从哪儿来?正如我们能弄清楚决定棒球“粉丝圈”或政治观点的关键年份一样,我们现在照样可以找到决定成人性取向的关键年份。要想找到这些答案,你必须购买我的下一本书,书名暂定为《人人都(还在)说谎》[Every body (Still) Lies]。
色情片的存在以及随之而来的数据,是人类性科学领域的革命性发展。
自然科学需要花费时日方可改变我们的生活——研制青霉素、人造卫星和电脑,这些无一不耗时费力。大数据可能还需要一段时间才能引领社会科学和行为科学在人类的爱情、学习、生活等方面取得巨大进步,但我相信,这种进步即将到来。我希望你至少能在本书中看到这种发展进步的轮廓。事实上,我也希望各位读完本书后能帮助推动这种进步的产生。
要想写好结论,作者应该想想为何写这本书。他想要达成什么目标?
我想我写这本书最大的原因是我一生中最重要的一次经历。十多年前,《魔鬼经济学》一书出版。这本出人意料的畅销书介绍了芝加哥大学一流经济学家史蒂芬·列维特的研究,本书曾多次提及这个熠熠生辉的名字。列维特是一位“离经叛道的经济学家”,似乎能够运用数据回答他那古怪头脑想到的任何问题:相扑运动员会作弊吗?游戏节目中的参赛者会受到区别对待吗?房地产经纪人会照实给你报价吗?
那时我刚刚大学毕业,大学期间主修哲学,压根儿就不知道自己将来想做什么。读完《魔鬼经济学》后,我有了想法,我想和史蒂芬·列维特做同样的事。我想研究海量的数据,来了解世界到底是如何运作的。所以,我决定跟随他的脚步,如今也拿到了经济学博士学位。
在这12年里,发生了很多变化。列维特的几项研究被发现存在编码错误。关于全球变暖,他发表了一些不正当的政治言论。
但我认为,抛开少数错误不谈,这些年来,列维特一直在努力做出更大的贡献。他一直在告诉我们,将好奇心、创造力与数据结合起来,可以大大提高我们对世界的理解程度。数据中隐藏着一些有待讲述的故事,这一点的正确性早已得到了一再的验证。
《魔鬼经济学》对我影响很大,我希望这本书能对其他人产生相同的影响。我希望对自己生活有困惑的年轻人现在正在阅读这本书。如果你有一点统计技能、丰富的创造力和好奇心,那就从事数据分析行业吧。
事实上,如果恕我斗胆,我倒觉得本书可以看作更高层次的《魔鬼经济学》。《魔鬼经济学》中讨论的各项研究与本书讨论内容的一个主要区别就是雄心不同。20世纪90年代,当列维特成名时,没有那么多数据可供研究。列维特引以为豪的是他一直在寻找古怪的问题,而这些问题中也确实存在着数据。他基本上忽略了没有数据的大问题。然而,今天的每个话题都有很多可用数据,对触及“作为人类意味着什么”这一话题的一系列重大而深刻的问题做深入研究也就顺理成章了。
数据分析有着光明的未来。我有强烈的预感下一个金赛会是一名数据科学家,下一个福柯会是一名数据科学家,下一个弗洛伊德会是一名数据科学家,下一个马克思会是一名数据科学家,下一个索尔克很可能也是一名数据科学家。
不管怎样,所有这些事情都是我为得到一个恰当的结论而做出的努力。我越来越意识到,要得出伟大的结论,还要做得更多。一个伟大的结论必须是具有讽刺意味的,必须是触动人心的,必须是既深刻又有趣的,必须是深沉、幽默而又悲伤的。一个伟大的结论一定是能用一两句话就说明要点,能概括过去和即将到来的一切的。一个伟大的结论必须用一种独特而又新颖的视角做到这一点,实现一种扭转。一本伟大的书必须以一种聪明、有趣且颇具煽动性的方式结束。
现在可能是谈论我的写作过程的好时机。我不是一个特别啰唆的作者,本书不过20余万字,对这样一个丰富的话题来说实在有点儿短。
虽然本书篇幅不长,但我下了很大的功夫。我花了5个月的时间才完成了自己第一篇《纽约时报》性专栏的文章,一共2 000字,光草稿就写了47份。本书的一些章节有60份草稿。我可以花费数小时,只为脚注中的某句话找到一个合适的词。
过去的一年里,我几乎成了一个隐士。陪伴我的只有电脑。我住在纽约最繁华的地段,却几乎没出过门。在我看来,本书就是我的巨著,是我一生中最好的想法。我愿意牺牲一切,只为让其完美呈现。我想要捍卫本书中的每一个字。我的手机里满是我忘记回复的邮件、从未打开的网上请帖和忽略的无聊短信。[4]
经过13个月的艰苦努力,我终于能够完成一份近乎完整的草稿了。然而,还差一部分:结论。
我向我的编辑丹尼丝·奥斯瓦尔德(Denise Oswald)解释,可能还需要几个月的时间,最有可能是6个月。在我看来,结论是一本书最重要的部分,而我才刚刚开始了解一个好的结论是什么样的。不用说,丹尼丝很不高兴。
后来有一天,我的一个朋友给我发了一封有关乔丹·艾伦伯格(Jordan Ellenberg)研究的邮件。艾伦伯格是威斯康星大学的数学家,他很好奇到底有多少人真正读完了书。他想出了一个绝妙的想法,利用大数据来进行测试。亚马逊报告了在书中引用各种名言的人数,艾伦伯格意识到,他可以比较在书籍开头和结尾部分的引用频率,这个比率可能提供了人们有没有读完一本书的倾向。按照他的方法,90%以上的读者读完了唐娜·塔特(Donna Tartt)的小说《金翅雀》(The Goldfinch)。相反,仅有7%的人读完了诺贝尔经济学奖得主丹尼尔·卡尼曼的巨著《思考,快与慢》。这一粗略的方法估计,不到3%的人读完了经济学家托马斯·皮凯蒂(Thomas Piketty)受到广泛讨论与赞扬的《21世纪资本论》。换句话说,人们往往不会读完经济学家的专著。[5]
本书的观点之一是,我们要紧紧跟随大数据,无论它把我们带到哪儿去,我们都要采取相应的行动。我希望大多数读者能抓住我的每一个字,然后努力找出一个模式,将本书的最后几页与之前发生的事情联系起来,找出其中关联,但是,不管我多努力地润色书中的内容,大多数人还是会只阅读前几十页,了解一些要点,然后继续他们的生活。
因此,我用唯一恰当的方法总结这本书:通过跟踪数据,了解人们实际上做了什么,而不是说了什么。我打算和一些朋友喝喝酒,不再跟这麻烦的结论较劲儿了。大数据告诉我,几乎没有什么人还在读这本书。
[1] Karl Popper, Conjectures and Refutations (London: Routledge &Kegan Paul, 1963).
[2] Simon Rogers,“John Snow’s Data Journalism: The Cholera Map That Changed the World,”Guardian, March 15, 2013.
[3] 2015年6月1日,我对本杰明·琼斯进行了电话采访。关于这项工作的讨论参见Aaron Chatterji and Benjamin Jones,“Harnessing Technology to Improve K-12 Education,” Hamilton Project Discussion Paper, 2012。
[4] 因为人人都在说谎,所以你应该对这个故事提出更多的质疑才对。也许我不是一个工作狂,也许我没有特别努力地写这本书,也许我可以向大多数人一样夸大自己有多努力,也许在我“努力工作”的13个月里,有整整几个月我一点儿都没工作,也许我并不是一个隐士。如果你检查我的脸谱网账户,也许你会发现在所谓的隐士时期我和朋友外出游玩拍摄的照片。或者我当时是隐士,但并不是自愿的,也许很多个夜晚我独自一人,无心工作,徒劳地幻想着有人能联系我,也许没有人请我做任何事,也许没人给我发无聊的短信。人人都在说谎,每个叙事者都不可靠。——作者注
[5] Jordan Ellenberg,“The Summer’s Most Unread Book Is...,”Wall Street Journal, July 3, 2014.
本书是团队努力的成果。
这些想法都是我在哈佛大学上学,在谷歌公司做数据科学家和在《纽约时报》当专栏作家这整个过程中逐渐形成的。
我在谷歌的同事哈尔·瓦里安对本书的想法有不小的影响。据我所知,哈尔总是比他的时代超前20年。他与卡尔·夏皮罗合著的《信息规则》(Information Rules)基本上预测了未来,与崔铉英(Hyunyoung Choi)共同编写的《预测现在》(Predicting the Present)一文很大程度上开启了本书所描述的社会科学领域的大数据革命。他也是一位成果显著、为人和蔼的导师,很多在他手下工作过的人都可以证明这一点。哈尔的典型做法是,当你与他共同撰写一篇文章时,他会做大部分工作,然后署名时坚持把你的名字放在他前面。我几乎从未遇到过像哈尔一样天赋超群而又慷慨大方的人。
我的写作和想法是在阿龙·雷蒂卡(Aaron Retica)的指导下不断推进的,我每一篇《纽约时报》专栏文章的编辑都是他。阿龙是个博学的人,他对音乐、历史、体育、政治、社会学、经济学以及其他我不知道的领域都了如指掌。在《泰晤士报》(Times),他负责的诸多专栏里有我署名的内容。这些专栏的其他成员包括比尔·马什(Bill Marsh),他的图片总是吓着我,以及凯文·麦卡锡(Kevin McCarthy)和吉塔·达涅什约(Gita Daneshjoo)。本书包含这些专栏文章的内容,都是经允许转载的。
斯蒂芬·平克非常慷慨地答应帮我撰写序言,他一直都是我的英雄。他为社会科学相关的现代著作设立了标杆——对人性的基本探索引人入胜,在一系列学科的相关研究中皆堪称翘楚。这个标杆是我穷尽一生奋斗的目标。
我的博士论文是本书的写作基础,在此要感谢几位才华出众而又耐心有加的导师阿尔贝托·阿列西纳(Alberto Alesina)、戴维·卡特勒、埃德·格莱泽(Ed Glaeser)和劳伦斯·卡茨的耐心指导。
丹尼丝·奥斯瓦德是一名出色的编辑。如果你想知道她的编辑工作做得有多好,把最终的定稿与我的初稿做个比较便一目了然了,但事实上,你不能这样做,因为我不会给任何其他人看我拙劣的初稿。我还要感谢哈珀·柯林斯出版社的其他成员,包括迈克尔·巴尔斯(Michael Barrs)、林恩·格雷迪(Lynn Grady)、洛朗·贾尼茨(Lauren Janiec)、谢尔比·迈茨利克(Shelby Meizlik)和安布尔·奥利弗(Amber Oliver)。
我的经纪人埃里克·卢普伐(Eric Lupfer)从一开始就看到了这个项目有巨大的潜力,在方案形成过程中发挥了很大的作用,并且帮助我最终完成了这一项目。
在我的职业和学术生涯中,我还从许多人身上学到很多,包括苏珊·阿西(Susan Athey)、什洛莫·贝纳齐(Shlomo Benartzi)、贾森·博尔多夫(Jason Bordoff)、达尼埃尔·鲍尔斯(Danielle Bowers)、戴维·布鲁克曼(David Broockman)、博·考吉尔(Bo Cowgill)、史蒂文·德尔波姆(Steven Delpome)、约翰·多诺霍(John Donohue)、比尔·盖尔(Bill Gale)、格劳迪亚·戈尔丁(Claudia Goldin)、苏珊·格林伯格(Suzanne Greenberg)、沙恩·格林斯坦(Shane Greenstein)、史蒂夫·格罗夫(Steve Grove)、迈克·霍伊特(Mike Hoyt)、戴维·莱布森(David Laibson)、A.J.马格努森(A. J. Magnuson)、达娜·马洛尼(Dana Maloney)、杰弗里·奥尔德姆(Jeffrey Oldham)、彼得·欧尔萨格(Peter Orszag)、戴维·赖利(David Reiley)、乔纳森·罗森伯格(Jonathan Rosenberg)、迈克尔·施瓦茨(Michael Schwarz)、史蒂夫·斯科特(Steve Scott)、里奇·谢韦尔森(Rich Shavelson)、迈克尔·D.史密斯、劳伦斯·萨默斯、乔恩·瓦韦尔(Jon Vaver)、迈克尔·威金斯(Michael Wiggins)和武清(Qing Wu)。
我感谢蒂姆·雷库斯(Tim Requarth)和协作工作组NeuWrite帮助我提高写作水平。
在分析研究方面,我要感谢克里斯托弗·查布里斯、拉杰·切蒂、马特·根茨科、所罗门·梅辛和杰西·夏皮罗。
我曾问过埃玛·皮尔逊和卡蒂娅·索博尔斯基(Katia Sobolski)是否愿意为我书中的某一章节给出建议,但是他们居然决定读完我的整本书,然后给每一段都提出了明智的建议。
我的母亲埃丝特·达维多维茨(Esther Davidowitz)多次通读本书,并且帮助我大幅提高了本书的质量。她还通过例子向我说明不管好奇心把我带到什么地方,我都应该时刻追随它。当我应聘一份学术工作时,一位教授问我:“你母亲对你做的这份工作有什么看法?”我母亲可能觉得有点儿难为情,因为我研究的是性以及其他禁忌话题,但是我知道她一直以我为傲,因为不管我的好奇心把我带到任何地方,我会始终追随它。
读完部分章节的许多人都提供了有用的评论,包括爱德华多·阿塞韦多(Eduardo Acevedo)、科伦·阿皮切拉(Coren Apicella)、萨姆·阿舍、戴维·卡特勒、斯蒂芬·迪布内(Stephen Dubner)、克里斯托弗·格拉泽克(Christopher Glazek)、杰西卡·戈德堡(Jessica Goldberg)、劳伦·戈德曼(Lauren Goldman)、阿曼达·戈登(Amanda Gordon)、雅各布·莱什诺(Jacob Leshno)、亚历克斯·佩萨克维奇、诺厄·波普、拉蒙·鲁勒德(Ramon Roullard)、格雷格·索博尔斯基(Greg Sobolski)、埃文·索尔塔斯、诺厄·斯蒂芬斯–达维多维茨、劳伦·斯蒂芬斯–达维多维茨(Lauren Stephens Davidowitz)和杨简(Jean Yang)。事实上,在我写这本书的时候,简基本上可以算作我最好的朋友了,为此我也很感谢她。
在搜集数据方面,我要感谢布雷特·戈登堡(Brett Goldenberg)、詹姆斯·罗杰斯(James Rogers)、MindGeek公司的迈克·威廉姆斯(Mike Williams)以及棒球新秀罗伯·麦奎恩(Rob McQuown)和萨姆·米勒(Sam Miller)。
我很感谢阿尔弗雷德·斯隆基金会(Alfred Sloan Foundation)提供的财力支持。
在本书写作过程中,我曾一度深深陷入困惑,十分迷茫,几乎就要放弃这个项目了。于是我和父亲米切尔·斯蒂芬斯(Mitchell Stephens)去了乡下。在那一周的时间里,他让我又重新振奋起来。他带我去散步,我们聊了很多,包括爱情、死亡、成功、幸福和写作,然后父亲让我坐下来,和我一起研读书中的每一句话。没有他,我不可能完成这本书。
当然,若书中仍有错误,则所有责任皆在我个人。