信阅平台

编辑推荐

阅读《统计学入门：离真实世界更近的91个统计思维》，学会正确抽样，使抽取的样本具有代表性，而不会出现幸存者偏差这类错误，如果数据选得不合适，给出的结论一般也是不正确的。
解决真实问题，了解均值回归，对随机波动的结果进行规律性总结，看透事物本质。
并不需要记忆复杂的公式，用软件即可直接代入公式，计算结果。
本书写给以下读者
工作中经常与数据打交道，时不时被要求做报表和汇报，羡慕其他小伙伴的数据分析力
读书时候学过统计学，可只会做题和考试，在生活和工作中不会具体准确运用，也不敢用
虽然是文科生，也想拥有统计思维，透过数据看透真实世界，不再被媒体和公号忽悠

展开

作者简介

田霞
高校教师
主要讲授《概率论与数理统计》《统计学》
她致力讲述
文科生也完全理解的统计学
大家都能用在工作中的统计学

展开

内容介绍

吸烟容易患肺癌，男性色盲患者多于女性色盲患者，个子越高鞋码越大……每个人都会在日常生活中学习到一些统计常识，但是这些常识一定是对的吗？常识背后蕴含的数学逻辑是什么？本书以案例的形式讲述生活中的统计问题，主要介绍统计学的各种解决问题的方法，如参数估计、假设检验、方差分析、回归分析和聚类分析等。部分内容以故事连载的方式，引入案例、分析案例，介绍统计原理，给出解决方案。然后给出其他案例，巩固练习，最后给出使用Excel的数据分析功能解决该类统计问题的步骤。案例内容通俗易懂，贴近日常生活，解决方法也尽可能的简单，数学基础知识薄弱的读者也可以学到统计知识。

展开

精彩书摘

◎01你被平均了吗——均值

平均工资指的是企事业单位、机关单位的职工在一年内平均每人得到的货币工资。山东省人力资源和社会保障厅于2021年8月13日下午发布消息，根据山东省统计部门提供的相关数据，经测算，2020年度山东省全口径城镇单位就业人员的平均工资为74906元，这是年平均工资，而月平均工资为74906/12=6242.17元。

每年平均工资公布后，部分人会觉得：今年平均工资怎么这么高？我又拖了平均工资的后腿，我的工资又“被平均”了。曾经有网友创作了打油诗：“张村有个张千万，隔壁九个穷光蛋，平均起来算一算，人人都是张百万。”

这一统计中的平均工资指的是税前工资，包括公积金、社保、个人所得税等，和拿到手的工资是有差异的。此外，工资统计的是法人单位的就业人员，而个体就业人员、自由职业者等不在统计范围内，即统计的范围不是所有的人。为了让自己不拖平均工资的后腿，就要努力地提升自己的能力，多“充电”。

上面提到的平均工资，就是统计中最常用的统计量之一:平均数，又称均值。那么平均数是怎么计算的呢？若n个样本观测值分别为x1，x2，…，xn，则样本均值的计算公式为：

案例1某班40名同学某门课程的成绩如下：

56,49,74,69,85,96,83,49,84,81,73,74,78,90,99,91,93,91,91,94,85,74,89,77,85,67,79,86,72,72,68,88,77,77,69,73,79,84,95,5

下面计算该课程的平均成绩。

（56+49+74+69+85+96+83+49+84+81+73+74+78+90+99+91+93+91+91+94+85+74+89+77+85+67+79+86+72+72+68+88+77+77+69+73+79+84+95+5）/40=1301/40=77.525分。

现在统计各分数段的人数：

0~59分的有4人，60~69分的有4人，70~79分的有13人，80~89分的有10人，90分以上有9人。从统计的数据看出，有18人成绩在平均成绩下面，即没有达到平均成绩77.525分，达到45%。那么这18名同学就会认为自己被平均了。之所以平均成绩为77.525，是因为有9名同学的成绩在90分以上。尤其有一个同学成绩为99分，这个成绩远高于平均成绩。画出成绩的频数直方图如图2-2所示。

平均数的缺点是它会受到异常值的影响。从图22可以看出，案例1的数据不是对称的，重心在右边，处于左偏状态（有个别非常小的数据存在）。这个5分就是异常值或者极端值。如果去掉这个的同学成绩，那么剩下的39名同学的平均成绩变为79.38462分。

经过计算得知，该小区的平均房价为9232.8元/m2，其中有11套房子的单价低于平均房价。平均房价高是因为出现了3套单价10000元/m2以上的房子。尤其是单价为12821元/m2的房子，它的价格远远超过其他房子，属于异常值。画出频数直方图如图2-3所示。

观察图2-3，可以看出该直方图的重心在左边，统计学上称为右偏（有个别非常大的数据存在），即它右边有较长的尾部。如果把异常值12821去掉，再画频数直方图如图24所示，此时比起图23来，图像要更对称些。

◎02不偏不倚——中位数

当出现异常值时，均值看起来不那么可信，我们就需要其他的描述统计量了，如中位数。中位数左右两侧的数据的个数各占总数据量的一半。它不受数据极端值的影响。

已知有n个数据，将数据按照从小到大排列，如果n为奇数，则排好序后的第［（n+1）/2］个数为其中位数，即中间位置的数；如果n为偶数，则排好序后的第［n/2］个数与第［n/2］+1个数的和除以2为其中位数。比如，如果有5个数，排好序后的第3个数为中位数；有6个数，排好序后的第3个和第4个数的和除以2为中位数，所以中位数可以是数据里的数，也可以不是。

例如：有数字3，6，8，4，3，5，3，9，一共有8个数，将这8个数字按照从小到大的顺序排列为3，3，3，4，5，6，8，9。其中第4个数和第5个数分别是4和5，则中位数为（4+5）/2=4.5。这8个数中大于4.5和小于4.5的各有4个。如果数字为6，8，4，3，5，3，9，一共有7个数，将这7个数字按照从小到大的顺序排列为3，3，4，5，6，8，9，则中位数就是第4个数，为5。这7个数中大于5和小于5的各有3个。

在本部分内容的案例1中，成绩的中位数是79分，大于平均分77.525分。如果去掉最低分5分，则平均分变为79.3846分，而中位数还是79分，两者更接近了。

案例2中房价的中位数为8962元/m2，这个数据比平均房价9232.8元/m2看起来更可信些。

案例3某学校要选拔学生去参加竞赛，名额只有一个。有两个学习能力相当的同学作为考察对象，他们两个成绩如下：

这两个同学的成绩的平均成绩和中位数分别是多少？

甲同学的平均成绩为99分，中位数为99.5分。乙同学的平均成绩为99.1分，中位数为100分。两个同学的平均成绩几乎一样，中位数乙比甲稍微高一点，但是差距不明显。两个同学的成绩几乎不分胜负，那到底要哪位同学去参加数学竞赛呢？我们可以试试标准差。

◎03少数服从多数——众数

众数指的是出现频数最高的那个数据。众数不是唯一的，可能有多个众数，也可能没有。众数是由英国统计学家皮尔逊首先提出来的，是一组数据分布的峰值，不受数据极端值的影响。平均值、中位数和众数这三个统计量都可以反映数据的集中趋势。

案例1中的成绩的众数为74，77，85，91，它们出现的次数都是3次。所以众数不唯一。案例2中由于房价的特殊性，没有众数。案例3中甲同学的成绩的众数为100，乙同学的众数也是100。说明两个同学考100分的时候最多。

对于均值、中位数有如下结论：

如果数据的分布是对称的，中位数和均值相等，应选择均值作为集中趋势的代表值。均值的主要缺点是易受数据极端值的影响。对于偏态分布的数据，均值的代表性较差。当一组数据的个别数据偏大或偏小时，用中位数来描述该组数据的集中趋势就比较合适。当某个数据出现比较多的时候，用众数表示这组数据的集中趋势比较合适，因为它体现了整个数据的集中情况。

如果数据是左偏分布，说明数据存在极小值，均值较小，即均值<中位数，如案例1；如果数据是右偏分布，说明数据存在极大值，均值较大，即中位数＜均值，如案例2。数据偏态时，中位数和众数的代表性要比均值好。

◎04最大的减去最小的——极差

极差又称全距，用来表示统计资料中的最大值与最小值之间的差距，即最大值减最小值后所得的数据。它反映的是数据的离散趋势。

案例1中的极差是99-5=94分，表示最高分与最低分的差为94分，两名同学的学习成绩相差非常大。

案例2中该小区的房价最低为7875元，最高为12821元，极差为12821-7875=4946元。价格波动范围较大，而面积为90~100m2的房子的单价，最低是8182元，最高是10102元，极差为10102-8182=1920元。该小区的房子的总价会相差17万～19万元。所以买房子的时候，即便看中了某个小区，也要多看几套房子，把户型、装修情况、地下室情况等都了解清楚，再下手也不晚。

买房时到底看几套房子合适？可以参考37%法则。如果你自己计划的时间是3个月内一定要买上房子，90天的37%为33天，那你就可以在前面33天积累经验，等33天后每看到一套房子，就与前面的比较，如果有比前面房子更好的，就出手买入。同样，如果你手里持有股票而不是用现金购买房子，因为要3个月后买房子，所以在3个月内要卖出，那这个时候你也可以在前33天内仔细观察股票的涨势，到第33天后就要根据涨跌的情况，选择合适的时机卖出，再购买房子。

◎05样本方差和标准差

注意是人的心理活动对一定事物的指向和集中，一些优秀的军事家在战场上仍然能沉静地、注意力高度集中地指挥战斗。但是有些人，短时间注意力可以达到很高的程度，但是不能持久，即注意力不稳定，只能在很短的时间内集中，但是不能长期集中，此时需要进行注意力的稳定性训练。比如，可以边看电视边训练自己的注意力。将电视机的音量调至几乎听不到电视的声音，然后盯住电视机画面，聚精会神地收看节目。采用这样的方法，可以提高注意力的稳定性。

现有14名男同学和14名女同学，对其进行注意稳定性实验。他们能保持注意力稳定的时间（单位：分钟）如下：

男生： 19，32，21，34，25，25，25，31，27，31，22，26，26，29

女生： 19，30，28，19，23，25，27，35，30，20，29，24，26，38

由上面数据能不能说明男生的注意力稳定性要高于女生呢？

计算男生和女生的注意力稳定的时间的平均值，发现均为26.64286分钟，男生和女生注意力保持的平均时间可以认为是一样的。那么男生和女生的注意力集中情况是否真的相同呢？通过均值是区分不出的。虽然男生和女生的注意力集中时间的均值相同，但是这些数据距离均值有多远呢？数据是在均值的周围摆动还是离均值比较远呢？如果在均值周围摆动，摆动的幅度如何呢？我们自然期望注意力集中时间在均值周围摆动，而且摆动幅度越小越好。

如何知道数据在均值周围摆动的情况呢？我们自然想到使用数据偏离均值的偏差（距离）表示，但是偏差有正有负，因此考虑使用绝对值。又因为绝对值作为统计量求数字特征时不太好处理，所以使用数据与均值的偏差的平方表示。先求每个数据与均值的偏差的平方，然后求和，得到所有的数据与均值的偏差的平方和，用公式表示为(x1-μ)2+(x2-μ)2+…+(xn-μ)2，其中n个样本观测值分别为x1，x2，…，xn，μ为样本均值。将偏差平方和除以n-1,得到常见的统计量之一的样本方差S2，样本方差计算公式为:

将样本方差的算术平方根称为样本的标准差，记为S。样本方差表示数据偏离均值的分散程度。如果样本方差小，说明数据集中，反之说明数据分散。涉及考试成绩、射击水平等，数据越集中，样本方差越小，说明发挥越稳定，不会出现较大的失误。关于蔬菜价格，我们自然也希望价格稳定，而不是忽高忽低，价格稳定也意味着样本方差小，价格波动小。

样本方差是衡量数据的离散趋势或者波动的统计量，它的数学期望等于总体的数学期望。

将男生的集中注意力时间代入，计算得：19.016

将女生的集中注意力时间代入，计算得：31.786

这两个样本方差说明男生的集中注意力时间较女生稳定(该案例仅用于讲解，不代表真实情况)。

下面给出使用Excel计算样本标准的过程，图2-5是原始数据，最后一行为均值，图2-6和图2-7为求样本标准差的过程。路径为：公式—自动求和—其他函数—统计—STDEV.S。STDEV.S为求样本的标准差S，标准差S的平方为样本方差S2。

在求样本方差界面中，number1中输入“F1：F14”，也可点击第F列的第一个数据，输入“：”，再点击第14个数据，将14个数据都选入，计算样本标准差。界面上出现样本标准差为4.360789323，如图28所示。样本方差为样本标准差的平方，为19.016。

求女生的注意稳定性的样本标准差过程和求男生的样本标准差过程相同，结果如图29所示。样本标准差为5.637882074。样本方差为31.786。

比较男生和女生的样本方差，发现女生的样本方差大于男生的样本方差，说明男生的注意力集中时间更具有稳定性，波动性没有女生波动性大。

另外，男生的注意力集中时间最小值为19分钟，最大值为34分钟，女生的注意力集中时间最小值为19分钟，最大值为38分钟。说明个别女生的注意力集中时间要长一些。

展开

第一篇概率基础
第一部分概率基础与正态分布
01先下手为强
02什么样的扑克牌是独立的
03破译密码
04逆向思维的重要性
05花会不会死
06品牌效应
07神奇的数字37%
第二部分正态分布
01正态分布
02正态分布的期望和方差
03估计名次
04正态分布的3σ原则
05正态分布的分位数
06录取分数线问题1
07录取分数线问题2
08保险公司的盈利
09被盗索赔
第二篇统计基础
第一部分数据分类
01定类数据
02定序数据
03定距数据
04定比数据
第二部分抽样方法
01幸存者偏差——简单随机抽样
02社会调查——分层抽样
03整群抽样
04系统抽样——等距抽样
第三部分描述性统计
01你被平均了吗——均值
02不偏不倚——中位数
03少数服从多数——众数
04最大的减去最小的——极差
05样本方差和标准差
06四分位数
07箱线图
08茎叶图
09会说谎的统计图形
第三篇统计进阶
第一部分参数估计
01基金的年收益率的中位数
02用有限的数据预测无限的未来
03哪个运动员的成绩更好
04抛硬币试验——极大似然估计
05电动汽车的续航里程——区间估计
06能语音输入的鼠标——区间估计
第二部分假设检验
01确定统计假设
02拒绝域
03两类错误和显著性水平
04确定统计量
05判断样本观测值是否落入拒绝域
06面包房是否存在克扣面粉1——双侧Z检验
07检验的p值
08面包房是否存在克扣面粉2——右侧Z检验
09纸箱用纸厚度符合标准吗——左侧Z检验
10降糖药重量是否符合标准——双侧Z检验
11紫外线杀菌灯的寿命——左侧Z检验
12面包房是否存在克扣面粉3——双侧t检验
13饲料养鸡——右侧t检验
14饮料的容量——左侧t检验
15次品率的检验——大样本Z检验
16手机电池的寿命的波动性——双侧卡方检验
17机床的精度 ——右侧卡方检验
18自动车床的改造——左侧卡方检验
19主动吸烟和被动吸烟有无区别1——双侧t检验
20主动吸烟和被动吸烟有无区别2——使用Excel进行双侧t检验
21大量的被动吸烟和少量的主动吸烟谁的危害更大——左侧t检验
22哪个设备生产的香皂更好——右侧t检验
23主动吸烟和被动吸烟有无区别3——使用公式计算双侧F检验
24主动吸烟和被动吸烟有无区别4——使用Excel进行双侧F检验
25哪个牛奶厂的牛奶更好——左侧F检验
26烟草中的尼古丁含量——使用Excel进行Z检验
第三部分非参数假设检验
01独立性
02骰子是否均匀——拟合优度检验
03消费者挑选空调时是否注重品牌——拟合优度检验
04福利彩票25选7——拟合优度检验
05吸烟与患肺癌有关吗——独立性检验
06色盲与性别有关系吗——独立性检验
07机床的不同影响产品的质量吗——独立性检验
08使用Excel进行卡方拟合优度检验
09母亲的不同吸烟习惯对新生儿体重的影响——Wilcoxon秩和检验
10劳动生产率——Wilcoxon秩和检验
第四部分方差分析
01哪一种饲料的增肥效果最好1——问题求助
02哪一种饲料的增肥效果最好2——偏差平方和
03哪一种饲料的增肥效果最好3——F检验
04哪一种饲料的增肥效果最好4——答案揭晓
05使用Excel中的数据分析进行单因素方差分析
06包装的不同是否会影响销售量
第五部分回归分析
01足长和身高有关系吗
02如何知道足长和身高有无关系——散点图
03足长和身高是什么关系——使用最小二乘法求回归方程
04给出的足长和身高的关系对吗——对回归效果进行检验
05凶手的身高——使用回归方程进行预测
06广告投入和销售收入的关系——衡量线性关系的强弱的相关系数
07使用Excel中的数据分析进行一元线性回归分析
08由沙漠中的植物覆盖面积能否推断出其中的野生动物数量
第六部分聚类分析
01学生的学习成绩与学习态度——最短距离的聚类分析
02电视剧的分类——最长距离的聚类分析

展开