-
1 视频
-
2 章节测验
1.该发现准确是什么?其关键词含义是什么?
区别实际结果及其解释。
如许多报告把相关性与因果混为一谈。有篇博客文章说“睡得越多越短命”,这是因果主张。但实际统计数据也许只告诉我们:
一天睡眠超过8小时的成年人比那些只睡6-7小时的成年人死亡率要高得多。这些关联数据根本与因果关系无关。
检查关键概念的定义。
某项调查可能会说,27%的大学生都是基督徒。但“是基督徒”是什么意思呢?是说他们自己说自己是基督徒吗?或者它指的是定期去教堂礼拜吗?摩门教徒是基督徒吗?
2.样本有多大?
当我们从总体中抽取样本时,样本越大越有可能给我们更准确的结论。如果某餐馆想要调查其顾客是否喜欢它的饭菜与服务,只征求某位顾客的意见肯定不够。
另一方面,要是小样本量就能做好,那么用大样本量额外花金钱与时间就不值了。
要决定最佳样本量并非易事。这部分取决于总体量以及所需结果的精确水平。其他相关因素包括总体的可变性。
3. 如何选取样本?
如果你想要找出人们多久锻炼一次,只采访那些出现在当地体育馆的人就错了,因为他们可能锻炼很多。这就构成了我们所说的偏颇样本或样本偏颇谬误。
我们应当仔细检查如果选取样本,看看是否存在隐性偏差。
4. 什么方法可用于研究样本?
如果使用有偏差的方法来研究样本,即便样本具有代表性,其统计结果也不可靠。这包括下列几种不同的方式:
(1)社会性压力:假如某老师随机选取一些学生,问他们是否有过考试作弊行为。既然学生不可能向老师承认作弊,那么这项研究就会低估作弊的程度。
(2)诱导性提问:这类问题通过特定的提问方式,从而使得回答者的答案会偏向某个特定方向。如“你不想把维生素丸给你的小孩们以改善他们的健康吗?”
(3)观察者影响:要想开展统计研究,而又对研究结果不产生任何影响,这常常很难。面对不同的提问者,人们可能会改变他们的答案。当动物意识到正被观察时,它们会改变其行为。甚至测量仪器也会出错。当我们解释统计结果时,就必须小心。
5.误差可以有多大?
当样本小于总体时,误差就会大于零。这个数字反映了真正的结果偏离估计的程度。定义误差是相对于置信区间的。在统计中,我们通常要么说99%的置信区间、95%的置信区间或90%的置信区间。要是未指明置信区间,通常都是(但不总是)95%。
假如有某项针对即将进行的选举的民意测试说,64%的人都支持马克龙,其误差为3%。既然并不提及置信区间,我们就假定与此相关的置信区间为95%。在该种情况下,该调查告诉我们的是,95%的置信区间是64±3%。
这意味着,如果你重复调查100次,其中95次你能够预见真正的结果会在上述指定范围之内。换句话说,在准确使用同样方式所做的95%民意测验中,真正支持马克龙的结果应当是在61%-67%之间。