纵使我们对数据来源抱以高度的清醒,也未必能做到客观真实。
2008年,纳特·希尔弗在美国大选期间成功预测了49个州的选举结果。2012年,他更是惊人地准确预测了美国全部50个州的选举。但正是这个被誉为“神奇小子” 的人提醒大家,在如今所谓“大数据”的时代,作为一门炙手可热的学问,统计学的第一戒条就是谦逊。一个好的统计学家必须认识到,哪些事情统计学可以办到,哪些不能。而这一点,往往是分辨好数据与坏数据的前提。
上世纪七八十年代,当计算机开始得到广泛运用时,人们乐观地以为,统计学可以解决经济预测问题。然而30年过去了,经济仍然是一个湍流难测的领域。很少有人预知到经济危机的发生,经济趋势的预测通常也充满了一个个互相矛盾的修正值。
经济学家哈祖斯是少数准确预测到2008年国际金融危机的人。他认为,人们在下判断时,总是倾向于选择那些满足自身偏见的数据。不管这些偏见是经济动机还是政治信仰,它们都会使数据变得很不可靠。他说:“我认为人们绝对有这样的倾向,急切地希望事情按照自己希望的方式发展下去。”正是这种一厢情愿的自以为是,使得数据、统计,以及它们描述的世界统统发生了扭曲。
哲学家C.I.刘易斯告诫人们:“不存在任何先验的理由足以证明,当我们发现真理的时候,它会是有趣的。”不仅是统计学,任何以真理为最终目标的知识,都应该以此为圭臬。
(摘编自微信公共账号“大家”,作者:西闪,原题为《用数据是否能走向真理》)
《 人民日报 》( 2013年12月17日 05 版)