图片说明
搜狐汽车 > 车文化

干货丨浅谈数据抽样的随机性要求——来自zhanzhiwei的分享

ind4汽车人 阅读(0) 评论()

  导读

当今的时代,数据分析非常热门,已经出现了数据科学家、数据分析师等职业,特别是大数据非常热门,对统计学来说既是机遇又是挑战,机遇在于大数据的分析要建立在统计学的基础上,大数据的信息量非常大,但是有很多的信息并不是我们所关心的,因此就需要对数据进行处理、挖掘和分析,从而使得大数据“可视化”,而挑战在于,当下传统的统计学的方法对于大数据的分析、处理和响应太慢,这需要我们进一步对统计学进行发展与创新。实际上,大数据里的应用分析仍然是需要采取统计分析。

无论是经典的统计分析还是大数据分析,都是基于抽样分析的。真正意义上的总体信息仍然是无法获得的,即使采取了各种数据采集系统,但是数据采集间隔永远不可能是0。因此,我们通常说的大数据,同样是抽样数据,当然样本信息更多。对于数据分析者而言,我们不用关心具体的统计分析公式,现在有了各种统计分析软件,只需要点几下菜单,就可以快速的获得我们需要的分析结果。但是对于基本的统计分析思路和基本概念还是应该掌握一些的。如果基本的统计理念发生错误,那么后续的分析结果会和实际结果产生很大的偏差。

这篇文章,我们来谈一下抽样调查的最基本要求“抽样的随机性”。

  

抽样调查基于推论统计学的理念。从全部的调查研究对象中,抽选一部分单位进行调查,并根据样本信息对全部调查研究对象(也就是总体)做出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可以通过样本信息对总体起到一个科学的估计和预测作用。

抽样调查有一个最基本的前提假设,就是抽样必须满足“随机性要求”,也就是在总体中每一个单位被抽取的机会是均等的,不致于出现倾向性误差。所以不管是人口普查和市场调查,如果抽样不满足随机性而导致的对总体的推断错误的情况经常会发生,这里举一些案例和大家一起分享下:

1948年美国总统大选,民主党候选人杜鲁门和共和党候选人杜威参选。在选举前,芝加哥日报做了一个万分之一的民意调查,结果显示,杜威会当选。芝加哥日报将此预测结果做了公布,根据这一推测,台湾提供了大量的政治献金给共和党参选人杜威。然而结果大家都知道了,杜鲁门当选总统。我们关注的是芝加哥日报的这次的抽样民意调查分析结果为什么会发生偏差,很多人都认为是抽样率过低造成的,其实不然。万分之一的抽样率属于并不算低,现在很多民意调查的抽样率只有几十万分之一,但是调查结果和实际的吻合度非常高。芝加哥日报的问题出在抽样的方法上,它们采取的抽样方法是“电话抽样”。

  

咋一看,没什么问题啊,然而大家要知道,在1948年的时候,电话还属于新鲜玩意(和30年前国内的情况类似),只有有钱人才会安装电话。并且,美国是两党制国家,其中民主党的票源主要在穷人,中产阶级和富人的主要投票给共和党。所以问题来了,这次民意调查抽样的对象其实主要都是有钱人,这些人绝大部分都会投票给共和党的杜威,民意调查的结果必然是杜威当选。但是实际上,全国大选时,穷人同样会投票,但是抽样调查里并没有包含穷人的样本(因为没钱装电话),因此最终预测结果出错也就很正常了,这样的民意调查,结果出现很大的偏差也在情理之中了。

再举一个案例,二战时的太平洋战争,美日交战初期,在美国的恶妇式战斗机出现之前,日军的零式飞机的飞行作战能力大大强于美军的野猫式飞机,美军作战飞机被大量击落。为提高防御能力需要对飞机的关键部位进行加固,美国国防部原先的做法是先对从飞机修理厂的飞机进行检查,统计它们受到攻击的部位,发现飞机的尾部是弹孔最多,因此国防部在飞机的尾部的部位加厚防弹钢板。这似乎非常正确,但效果却不尽人意,返航率并没有提高,反而因为加重了飞机自身重量影响了飞行灵活性。

  

在统计研究小组介入后,形势迅速扭转,统计学家亚伯拉罕·瓦尔德(Wald)敏锐地指出,军方的统计样本只包括那些从战场上安全返回的飞机,实际上这些飞机的弹孔部位都是无关紧要的打击部位,最需要加固的恰恰是那些样本飞机中没有遭受打击的部位———驾驶员座位和发动机,但是这些样本是无法安全返航的,因为他们都阵亡了。换句话说,能够“活着”飞回来的飞机,它们的中弹位置都是无关紧要的。因此从飞机修理厂里获得的中弹部位并不是关键的“要害”部位。而驾驶员座位和发动机才是关键部位。按瓦尔德意见改装后的飞机返航率迅速从35%上升至76%。

我们再来聊聊市场调查,比如你是某个中老年保健品的市场调查计划的制定者,你会选择微信调查或是网络调查吗?上网的都是哪些人呢,80后、90后甚至00后,他们需要中老年保健品吗,就算他们要给家里老人买,他们的需求定位也不是很准确的,应该采取电话调查和问卷调查才是合适的。

再比如,要调查某个区里所有学校高一学生的教学质量情况,从每个学校的高一年级的每个班级抽随机抽一个学号的学生来进行考试,比如A学校每个班级都抽1号,B学校每个班级都抽11号,C学校每个班级都抽21号,D学校每个班级都抽31号,E学校每个班级都抽41号,这样合适吗?不合适,因为好多学校学生的学号,都是根据入学考试名次来排列的,每个学号的学生,基本代表了他的入学考试成绩,抽到1号的A学校就赚了,抽到41号的E学校就倒霉了。这样抽样并不能真实的反映学校的真实教学质量。

那么从每个学校里随机抽取一个班级的学生来进行考试呢?也不行,因为很多学校的班级也是有讲究的,有普通班、快乐版、提高版、奥英版、理科班等等,抽到一个奥英班级的学校,和抽到一个普通班的学校进行对比是没有意义的。

上面介绍了一些抽样非随机情况造成统计失真的案例。最后我们来总结一下,如果希望一个调查能够真实的情况,抽样的随机性是一个重要的原则。在制定抽样计划时,要充分考虑可能会影响随机性的因素,否则抽样“调查”结果的可信度就会收到影响。

课程上线

感兴趣的快来学习吧!

《常见变速操纵结构原理及换挡新能优缺点介绍

  

auto.sohu.com true ind4汽车人 http://auto.sohu.com/20170530/n494976651.shtml report 5002 导读当今的时代,数据分析非常热门,已经出现了数据科学家、数据分析师等职业,特别是大数据非常热门,对统计学来说既是机遇又是挑战,机遇在于大数据的分析要建立在统计学
车图社

车图社

汽车最新实拍图片、官方图片。

娱车有关

娱车有关

与车有关?娱车有关!从汽车科技聊到文化。

汽车咖啡馆

汽车咖啡馆

汽车产业深度报道,权威信息解读。

凹凸榜

凹凸榜

用数据告诉你传播、品牌背后的真相,提供独立、专业的价值标准。

中国交通频道

中国交通频道

广泛的综合性交通多媒体发布平台。

极车制造

极车制造

解读前沿汽车科技,剖析精密造车工艺。