收藏本页

欧洲网 > 评论 >

人民日报悦读:在大数据时代保持谦逊

2013-12-17 12:26 来源:人民日报
    有人说,抛开功利目的,统计学其实就是一项任务明确的客观工作。要达成这一任务,无非是处理数据,从中寻找信息,继而得出结论。但数据从来不是单纯的数字,它是关于事实的符号记录,构成信息或知识的基础材料。数字是抽象的符号,数据却包含着特定的意义。比方说“157”这个数字,本身没有任何主观的含意。可是,如果有人说,157是一个成年男子的身高,我们立刻就会明白,哦,它的单位肯定不是千克,也不是毫安,而是厘米。接着我们也许还会推断说,这个人的个头比较小,不太可能去打NBA。可见,数字必须嵌在经验、上下文联系、解释等主观判断里才可能成为数据。换句话说,在统计学的范畴内,数据是“有内容的数字”。而所谓内容,其实大有玄机。

  纵使我们对数据来源抱以高度的清醒,也未必能做到客观真实。

  2008年,纳特·希尔弗在美国大选期间成功预测了49个州的选举结果。2012年,他更是惊人地准确预测了美国全部50个州的选举。但正是这个被誉为“神奇小子” 的人提醒大家,在如今所谓“大数据”的时代,作为一门炙手可热的学问,统计学的第一戒条就是谦逊。一个好的统计学家必须认识到,哪些事情统计学可以办到,哪些不能。而这一点,往往是分辨好数据与坏数据的前提。

  上世纪七八十年代,当计算机开始得到广泛运用时,人们乐观地以为,统计学可以解决经济预测问题。然而30年过去了,经济仍然是一个湍流难测的领域。很少有人预知到经济危机的发生,经济趋势的预测通常也充满了一个个互相矛盾的修正值。

  经济学家哈祖斯是少数准确预测到2008年国际金融危机的人。他认为,人们在下判断时,总是倾向于选择那些满足自身偏见的数据。不管这些偏见是经济动机还是政治信仰,它们都会使数据变得很不可靠。他说:“我认为人们绝对有这样的倾向,急切地希望事情按照自己希望的方式发展下去。”正是这种一厢情愿的自以为是,使得数据、统计,以及它们描述的世界统统发生了扭曲。

  哲学家C.I.刘易斯告诫人们:“不存在任何先验的理由足以证明,当我们发现真理的时候,它会是有趣的。”不仅是统计学,任何以真理为最终目标的知识,都应该以此为圭臬。

  (摘编自微信公共账号“大家”,作者:西闪,原题为《用数据是否能走向真理》)


  《 人民日报 》( 2013年12月17日 05 版)