史海钩沉:大数据时代的迷思

2013-6-14 12:54:13 | tags | views

最近NSA窃听门惹怒了全美人民,翻看新闻10条有7条是在跟进这个事情,虽然从我们的处境,看美国政府好戏有点阿Q精神,但我们也应该思考一下为什么不能让政府打着国家安全的旗帜任意行事。其实道理很简单:谁都会犯错,但如果政府犯错,就必铸成大错。

史海钩沉:大数据时代的迷思

敌军阵亡统计:美国防部长麦克马拉1965年在五角大楼的新闻发布会上。

「大数据」时刻准备着改造社会,从看病,到教娃,甚至可以教会汽车自己上路。数据正成为新的经济推动力,和重要的生产资料。企业,政府,谁都能通过数据,给看着不得劲的东西来个优化。

但,凡事总有两面性。「大数据」蚕食个人隐私。特别是,老子不就淘宝上搜了一下志玲姐嘛,连网易都给我推荐各种仿真玩具。这让一个老问题显得更加严重:看数据,拍脑袋的决策,往往错误百出。没有比罗伯特·麦克马拉的故事更适合说明这一点的了。

麦克马拉是个数据狂。他在1960年代越战战事趋紧时,被任命为美国国防部长。他热衷于收集任何他能得到的一切数据。通过严谨的统计学分析,他坚信可以从纷繁的复杂局势中,得到正确的决策。世界在他的眼里就是一锅混沌的数据汤,但通过描述,归类,筛选,定量,最终能被人的意志所驯服。麦克马拉寻找着真相,而真相就藏在数据中。他所收集的数据,其中就包括了「敌军阵亡数字统计」(wiki)。

麦克马拉在哈佛商学院念书的时候就培养了对数字的迷恋,而且他在24岁就成为了助教。二战中,他在五角大楼挑选的精英团队里找到了施展才华的机会,在一个叫做「统计控制」小组,他们分析从战场获得的数据,进而为世界上最大的官僚机构提供决策建议。在此之前,军队如若眼盲。比如,军队不知道机场的数量,发布,位置的情况。数据分析帮了大忙,从而使弹药补给更有效率,在1943年就帮助节省了3.6亿美元军费开支。现代战争需要物资的合理高效分配,而麦克马拉所在的团队成就斐然。

战后,这个团队的成员,继续在美国经济领域施展才华。当时福特汽车正深陷危机之中,陷入绝境的亨利·福特二世把烂摊子交给他们。就和他们虽然不懂打仗,但也能帮了盟军大忙一样,他们对造车同样一窍不通。但,他们仍然如魔法神童一般,硬是把福特汽车从倒闭边缘救了回来。

麦克马拉很快地位飞升,开始插手福特生产的各个方面。强迫工厂经理按照他的计划生产,无论他的计划是对是错。当他命令所有库存的同一型号的汽车零件,必须在新型号开始生产之前用完,愤怒的生产线经理干脆把老的零件就近扔到河里。工厂里开玩笑说,被扔在河里的50年代的老车,多到都可以让人列队过河了。

史海钩沉:大数据时代的迷思

麦克马拉在福特执政期间,曾强势给福特汽车标配安全带,但市场反响一般让福特又回到了动力至上的老路。

麦克马拉就是把理性和对数据的依赖置于直觉判断之上的典型,他会用他的定量技巧去改造任何工业部门。1960年,他被任命为福特汽车主席,但这个位置干了没几周,他就被肯尼迪点将,成为美国防部长。

史海钩沉:大数据时代的迷思

1960年,当麦克马拉(肯尼迪身后)被任命为国防部长的时候,他自谦:我完全不胜任。

越南战事逐步升级,美军火烧屁股的时候,这场战争很明显已经成为一场「面子战争」,而不是为了什么国家利益。美国的策略就是想逼迫越南土共回到谈判桌上来。然而,衡量达到这个目的的进展,就是看敌军阵亡数。越共阵亡数字每天都见报。对于鹰派来说,数字就是进展;对于反对派,这就是这场非正义战争的证据。阵亡数字成了定义那个时代的标志。

史海钩沉:大数据时代的迷思

芝加哥街头的反战游行

麦克马拉依赖和迷恋这些。他梳着完美的大包头,系着一丝不苟的领带,觉得自己瞪着报表就能对千里之外的战况了如指掌,好像靠这些计算和图列,就能让他得到堪比上帝般的,接近事实的标准方差。

1977年,也就是越战结束后两年。前驻西贡大使,Douglas Kinnard将军,出版了一本意义重大的报告,叫做《战争经理人》,披露了数据量化决策的陷阱。仅有2%的美国将领认为「敌军阵亡统计」能代表战争进展。「纯属扯淡!」书中写道,「就是公然撒谎,部队故意夸张数字,目的就是取悦那位无比热衷于数字的麦克马拉。」

美军在越战中对于数据的错误迷信,误判,和对于信息的局限性的教训,对即将到来的大数据时代是个很好的前车之鉴。我们手里的数据可能是很不可靠的,数据可能带有主观偏见,可能被错误的分析和使用。更糟糕的是,数据可能没呈现它本该呈现的。

我们比想象地更容易被弊大于利的「数据执政」所统治。这种恐惧来自于,我们被无意识地被绑架在数据分析上,就算我们有理由相信有些分析根本就是错的。想知道低收入家庭孩子的教育情况?用标准化测验来衡量老师的表现,然后处罚老师和学校就行了。想预防恐怖主义袭击?简单,搞一张监视名单和禁止入境名单来管住领空就行了。想减肥,没问题,下载一个App算一下消耗的卡路里,连健身房都不用去。

就算在大数据执政里,一些行家里手也常掉入陷阱。Google的一切都是基于数据。基于数据的战略使他们走向今天的成功。但也时不时地给Google下套。两位创始人,Larry Page和Sergey Brin,长期坚持对应聘者提供高考成绩和毕业平均成绩。他们认为,高考成绩代表了一个人的发展潜力,而毕业成绩代表他们所取得的成就。就算40多岁的老江湖也被要求提供相关成绩,这让他们彻底懵了。Google坚持这样做,直到内部调查显示,学校成绩和工作业绩之间没有任何必然的关系为止。

Google应该多长个心眼。数据没有留给个人在一生中做出改变的空间。数据把数据的增长当做智慧的拓展。但数据根本无法体现人性的复杂,衡量一个人的能力要比科学工程计算难得多。Google的两位创始人也是从采取强调独立性,而不是成绩的蒙台梭利教育方法(wiki)的学校出来的才子,用基于数据招聘的方法显得很奇怪,因为照这样的标准,从比尔·盖茨到扎克伯格,就算是乔布斯也不可能被录用,因为他们拿不出像样的成绩单。

Google嗑数据已经走火入魔。前Google高管Marissa Mayer来到Yahoo后,竟然要求员工测试41种不同的蓝色,以决定哪种蓝色是人们最常用的,并用在自己的网站的工具栏上。2009年,Google的顶级设计师 Douglas Bowman 愤然辞职,因为他没法给所有事情定下明确的标准。

史海钩沉:大数据时代的迷思

Douglas对Google的工程师文化忍无可忍

他说:「我最近的争执,是关于一个边框应该是3,4,还是5个像素宽,然后非要我证明。在这样的环境里,我真的没法干了。」他写了篇博客宣布了他的辞职决定,「当一家公司被工程师执掌的时候,浓郁的工程师文化决定了问题的解决方式,就是把所有问题都拆分成一个个琐碎的简单逻辑。所有事情都需要有数据支持,最后搞残了公司。」

这就是数据执政。这不得不让我们想起美国在越战的困境,「敌军阵亡统计」的片面性,和不是基于更严肃全面的评估,对越战的失败负有部分责任。1967年,当国内的反战浪潮高起,麦克马拉承认道:「事实就是,关于人的复杂处境,是无法用图表,小数点和负债表所能完全表现出来的。但,真相是可以通过缜密分析获得的。如果不去分析可以分析的对象,就是只满足于得到不完整的洞见。」如果正确的数据用在正确的地方,不相信数据就是有病了。

麦克马拉后来在1970年代掌管世界银行,在1980年代,他成一个鸽派,不但声讨核武器,而且是环境保护的支持者。晚年又出版了一本回忆录,在回忆中,他深刻检讨了自己在任国防部长期间的战争思想和决策,他说:「我们错了,大错特错。」他逝世于2009年,享年93岁。但他对包括数据质疑,特别是「敌军阵亡统计」上,他坚持己见。他承认,一些数据统计可能出错,但他认为,如果事物可以被统计,那就应该被统计上来,阵亡数字只是其中之一。

大数据可以成为改善药物生产,学习方式,个人行为的基础。但它具有的意料之外的力量,会让我们犯和麦克马拉一样的错误。使我们变成数据的奴隶,痴迷于数据的推论,而忽视了数据的误导性。

[Junius Lou via MITreview]

    相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。