大数据”突然间变(biàn)得(dé)无(wú)处不在,似乎每个人都想收集、分析大数(shù)据、并从中获利,同时也有人在夸耀或者害怕它的巨大影响。不论我们是(shì)在讨论利用谷歌庞(páng)大的搜索数(shù)据来预测流(liú)感的(de)爆发还是利用通(tōng)话(huà)记录来预测恐怖活动,又或者是利用航(háng)空公司的数据找到买机票的最佳时机,大(dà)数据都可以帮上忙(máng)。将现代计算技术(shù)和数(shù)字时代众多(duō)的数据结合起来(lái),似乎(hū)可以(yǐ)解决任何(hé)问题(tí)——犯罪,公共卫生,用语的变化(huà),约会的危险,只要我们把这些数据利(lì)用起(qǐ)来。
似乎它的拥护者这样宣称。“在接下(xià)来的二十年(nián),”记(jì)者(zhě)帕特(tè)里(lǐ)克·塔克在他最近的大数据声明中(zhōng)这样(yàng)写道(dào),“是透明的(de)未来,”“我们可以以一种前(qián)所未(wèi)有的准确(què)度预测未来的诸多领域,甚(shèn)至包括一些(xiē)长(zhǎng)久以来被认为人类(lèi)无(wú)法干预的领域(yù)。”但大数据其实从来没有(yǒu)听上去(qù)那么好。
大数据真的像(xiàng)说的那么好?毫无疑(yí)问大数(shù)据确(què)实是一个有价值的工具,并在某(mǒu)些领域产生了至关(guān)重要的影(yǐng)响。比如,几乎近二十年人工智能计算机程序的成(chéng)功,从谷歌的搜索引擎到IBM的沃(wò)森(sēn)电(diàn)脑(nǎo)问答系统(tǒng),都包括了大量数据(jù)的处(chù)理。但是正是(shì)因为它最近如此受欢迎并得到(dào)广(guǎng)泛应用,我们需要清晰的看待大数据究竟能做什么和(hé)不能做什(shí)么。
大数据能告诉我们是什么,但不能告诉我们为什么
首先,尽管大数据(jù)能够(gòu)非常好地检测相关性,特别(bié)是那些用小数据集可能无(wú)法测出(chū)的微妙相(xiàng)关性,但是它并不会(huì)告诉(sù)我们哪(nǎ)一种(zhǒng)相关性是有(yǒu)意义的。比如(rú),大数据分析(xī)可能会揭示从2006年到2011你那美国(guó)谋杀(shā)案比例与IE浏(liú)览器的市场份额(é)是极度相关的,都呈急速下降趋势。但是很难(nán)相信这两者之间有什(shí)么(me)因果关系(xì)。又比(bǐ)如,从(cóng)1998到2007被诊断出的自闭症患者(zhě)与有机食物的销售具有(yǒu)相关性(都(dōu)呈急速上升趋势),但是(shì)这种相关性(xìng)本身不会告诉我(wǒ)们饮食和自(zì)闭症(zhèng)的关(guān)系。
大数据只能是辅助(zhù)工具
第二,大数据可以辅助(zhù)科学调查,但不可能成功地完全代替。比如(rú),分子生(shēng)物学家很(hěn)想从潜在(zài)的DNA序列中推断(duàn)出蛋白质的三维结(jié)构(gòu),有(yǒu)一些科学家已经在用大数据来解决这个难题。但是(shì)没有任何科学(xué)家认(rèn)为你可以完全依靠处理数据来解决这个难(nán)题,不论这(zhè)个数据分(fèn)析(xī)是多么的(de)强有力,你依旧需(xū)要基于对物(wù)理和生物化(huà)学的理解上(shàng)来处(chù)理这些数据。
基于大(dà)数据的工(gōng)具易造假
第三,基于大数据的(de)很多工具很容易造假。批改学生作文的大数据程(chéng)序通常依赖于(yú)句(jù)子长(zhǎng)度和用词的复杂性,数据表明(míng)这(zhè)和老师(shī)批(pī)改的(de)分数很相关(guān)。但(dàn)是一(yī)旦(dàn)学(xué)生(shēng)知道这个程序如何运作,他们就开始写一些长句子(zǐ)并用晦涩的词(cí)语而不是去学会如何规范清晰的表达(dá),组(zǔ)成连(lián)贯的(de)篇章(zhāng)。甚至谷歌的著名的搜(sōu)索引擎,这个通常被认为成功的大数据案例也不能免于信息繁杂,无用的搜索结果,一些人为的原(yuán)因使得一些搜(sōu)索结果排(pái)在前面(搜(sōu)索广告)。
通过大数据下(xià)结论是有风险(xiǎn)的
第四,即便大数据的结(jié)果没有人为地造假,但是它看上去也不(bú)那么有效。比如(rú)谷(gǔ)歌预测(cè)流感(gǎn)的案例曾经是大数据的典范。2009年,谷歌通过相当(dāng)大的宣传称它可以通过分析与流感相(xiàng)关的搜(sōu)索预测流(liú)感爆发的趋势,这种准确性和快速甚至(zhì)超过了疾(jí)病控制和预(yù)防中心等官方机构。但是(shì)几年后,谷歌宣称的流感(gǎn)预测并没有得到(dào)好(hǎo)的(de)结果,最(zuì)近两年,它(tā)做的更多(duō)地是不准的(de)预测。
最近(jìn)一篇《科(kē)学(xué)杂志》的文章解释道(dào),谷歌流(liú)感预测的(de)失败很(hěn)大程度上是因为(wéi)谷歌搜(sōu)索(suǒ)引擎自(zì)己在不断的更新,这个时(shí)候收(shōu)集的数据未(wèi)必能够(gòu)适(shì)用于下一(yī)个时候收(shōu)集的数据。正如统计学(xué)家冯启思(《数据(jù)统治(zhì)世界(jiè)》的作者)所说的,依赖(lài)于网站的大数据收集常常把一些用不(bú)同方法(fǎ)、有不同目的数据整合起来,有时候这会产生负(fù)面的(de)影响(xiǎng)。从这(zhè)样的数据样本得出结(jié)论是需要冒风险的。
大数据的智能应(yīng)用会导致错误被加强
第五个(gè)需要注意的就是“恶(è)性循环”,这也是因为大量的数据都来自于网络。不论何时,大(dà)数据分析的信息源本身就是一种大数据产(chǎn)品,这很可(kě)能会导致恶性循环。谷歌翻译等翻译(yì)程(chéng)序是从(cóng)不同语言中抽取相似(sì)的文本去辨别这(zhè)些(xiē)语言的翻译模式(shì),比如同(tóng)样的维基百科条目有两(liǎng)种语言(yán)。这是(shì)一个很合理的策略,要不(bú)是(shì)有很多(duō)语言并不具(jù)有太多相似性,维基百科自己都可以用谷歌翻译写条目。在这种情(qíng)况(kuàng)下,任何(hé)谷歌(gē)翻译的错误都会影响维基(jī)百科,而这(zhè)又会反映(yìng)到谷歌翻译上,使这种错误不断加(jiā)强。
大(dà)数据可能会导(dǎo)致大(dà)错误(wù)
第六个需要担心的就是太多相关性(xìng)导(dǎo)致的危险(xiǎn)。如果你在两(liǎng)个变(biàn)量中不断地(dì)寻找相关性(xìng),那么你很可能会纯(chún)粹出于偶然发(fā)现(xiàn)虚假的(de)相关性,即便(biàn)在这些变(biàn)量(liàng)中并(bìng)没有实际(jì)意(yì)义的(de)联系。缺乏谨慎的检查,大数据的(de)量(liàng)级会扩大这(zhè)些错(cuò)误。
听(tīng)上去科学的解释未必正确
第七,大(dà)数据很容易对那些无法(fǎ)精确(què)的问题给出听上去很科学的解释(shì)。比如在(zài)过去几个月(yuè),基于维基百(bǎi)科的数据(jù)给人们排名有两个不同(tóng)的尝试:根据历(lì)史重(chóng)要性或者(zhě)文化(huà)贡献。其中一本书叫做《谁更强?历史人物真实的排名在哪里》,作者是电(diàn)脑工程师Steven Skiena 和(hé)工程师Charles Ward,另一(yī)本叫做《万神殿》,来自(zì)于麻省理(lǐ)工学院(yuàn)媒体实验室项(xiàng)目。
这些(xiē)尝试(shì)在(zài)某(mǒu)些方(fāng)面是正确的,耶稣、林肯、莎士比亚确实(shí)是极为重要的人物,但是两者都犯(fàn)了一些严重的错误。《谁更强?》指出法兰西斯.史考特.凯伊(Francis Scott Key )在(zài)历史(shǐ)上(shàng)是19世纪最重要的作家,远远超过简·奥斯汀(tīng)(第78名)和乔(qiáo)治·爱略特(第380名(míng))。更严重的是,两本(běn)书呈现出(chū)了利用所谓的精确误导人,而(ér)在本质(zhì)上是(shì)模糊(hú)升值无(wú)意义的。大(dà)数据可以把(bǎ)任何事都简化为数字(zì),但是你(nǐ)不应该被这些“科(kē)学(xué)”的表(biǎo)现愚(yú)弄。
罕见事件,大数(shù)据不起作用
最后,大数据在(zài)分析那些普(pǔ)通事(shì)件很(hěn)在行,但是在(zài)分析(xī)罕见事件常失败。比如,用大数据处理文本(běn)的程序如搜索引擎(qíng)和翻译(yì)程序(xù),常常依赖于所谓(wèi)的“三字(zì)”:连续三个词的序列(比如“in a row”)。可靠(kào)的数据信息可(kě)以编制常规的三字模(mó)型,正是因为他们(men)常出(chū)现,但是现有的数(shù)据并没有多到足够包括(kuò)人(rén)们(men)可能(néng)使用的(de)所有“三字”,因为人们在不断创造新(xīn)语(yǔ)言。
随(suí)便挑(tiāo)一(yī)个例子,Rob Lowe 最近为报纸写的书评有九个“三词序列”比如“dumbed-down escapist fare”,这在谷歌的文本(běn)里从未出现过。对于这些新鲜词汇谷歌有很多限制,谷歌(gē)将(jiāng)“dumbed-down escapist fare”西安翻(fān)译为(wéi)德文然后再翻译(yì)为英文,最(zuì)后出现了这样一个不合逻辑的词语(yǔ)“scaled-flight fare.”Lowe先(xiān)生的本意和利用大数据(jù)的翻译(yì)真(zhēn)是(shì)完全不搭边。
等等,我(wǒ)们几乎忽略了最后一个问题:炒作(zuò)。大数据的支持(chí)者宣称(chēng)它(tā)是革命性的进步。但是即便是(shì)给出大数据的(de)成(chéng)功例子,比如谷歌流感趋(qū)势的预测(cè),即便有用但对(duì)于(yú)一些更大的事(shì)这些显得微不足道。相比19世纪(jì)和(hé)20世纪的(de)伟大发明比如(rú)抗生素,汽车(chē),飞机,大数(shù)据所(suǒ)得出的东西实在算不了什么。
我们(men)需要(yào)大数(shù)据,毫无疑问(wèn)。但是我们也需(xū)要更加清(qīng)醒的认(rèn)识到,这只是(shì)一种每个人都可以分析的重要资源,并不是什么新技术。