哈佛教授孟晓犁是否有搞错了?
作者:詹华平
孟晓犁是谁? 从2004年开始,哈佛大学统计系的系主任。
他在杂志《新一代》2015年第12期上发表了一篇面向大众的非学术文章《大
数据:越大越有价值吗?》。我是在文摘杂志《读者》(2016年第4期)上读到的。
在那篇文章里,他举了一个例子用来说明“所谓大数据,并非越大越有价值”。
他的例子如下:
“比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到
同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍
多一 点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案:
仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。”
然后他进一步用喝汤做比喻,“要确定汤的咸淡,大多数人只需要尝几口,
并不需要把汤全部喝完。......”
关于喝汤的比喻,我是同意的,但是关于抽样调查,我个人觉得有一点点误
导。查一下
https://en..org/wiki/Standard_error#Correction_for_finite_population ,
就可以发现,对于人口是有限多的情况,精确地说需要一个修正项
(在没有这个修正项的情况下,是与人口数无关)。所以要得到同样的精度,严谨
地说抽样数是与总人口数有关的。如果中国人口按14亿算,那么在中国为了同样
的精度,必须抽样4373人。也就是说真地必须大于4000人的。
孟晓犁是哈佛大学统计系的系主任,一年的薪水我估计35万美金。而我的年
薪是2万元人民币不到。如果读者根据年薪来判断,或许他是对的,而我说的是
错误的。(SciFans.Net)