◎01你被平均了吗——均值
平均工资指的是企事业单位、机关单位的职工在一年内平均每人得到的货币工资。山东省人力资源和社会保障厅于2021年8月13日下午发布消息,根据山东省统计部门提供的相关数据,经测算,2020年度山东省全口径城镇单位就业人员的平均工资为74906元,这是年平均工资,而月平均工资为74906/12=6242.17元。
每年平均工资公布后,部分人会觉得:今年平均工资怎么这么高?我又拖了平均工资的后腿,我的工资又“被平均”了。曾经有网友创作了打油诗:“张村有个张千万,隔壁九个穷光蛋,平均起来算一算,人人都是张百万。”
这一统计中的平均工资指的是税前工资,包括公积金、社保、个人所得税等,和拿到手的工资是有差异的。此外,工资统计的是法人单位的就业人员,而个体就业人员、自由职业者等不在统计范围内,即统计的范围不是所有的人。为了让自己不拖平均工资的后腿,就要努力地提升自己的能力,多“充电”。
上面提到的平均工资,就是统计中最常用的统计量之一:平均数,又称均值。那么平均数是怎么计算的呢?若n个样本观测值分别为x1,x2,…,xn,则样本均值的计算公式为:
案例1某班40名同学某门课程的成绩如下:
56,49,74,69,85,96,83,49,84,81,73,74,78,90,99,91,93,91,91,94,85,74,89,77,85,67,79,86,72,72,68,88,77,77,69,73,79,84,95,5
下面计算该课程的平均成绩。
(56+49+74+69+85+96+83+49+84+81+73+74+78+90+99+91+93+91+91+94+85+74+89+77+85+67+79+86+72+72+68+88+77+77+69+73+79+84+95+5)/40=1301/40=77.525分。
现在统计各分数段的人数:
0~59分的有4人,60~69分的有4人,70~79分的有13人,80~89分的有10人,90分以上有9人。从统计的数据看出,有18人成绩在平均成绩下面,即没有达到平均成绩77.525分,达到45%。那么这18名同学就会认为自己被平均了。之所以平均成绩为77.525,是因为有9名同学的成绩在90分以上。尤其有一个同学成绩为99分,这个成绩远高于平均成绩。画出成绩的频数直方图如图2-2所示。
平均数的缺点是它会受到异常值的影响。从图22可以看出,案例1的数据不是对称的,重心在右边,处于左偏状态(有个别非常小的数据存在)。这个5分就是异常值或者极端值。如果去掉这个的同学成绩,那么剩下的39名同学的平均成绩变为79.38462分。
经过计算得知,该小区的平均房价为9232.8元/m2,其中有11套房子的单价低于平均房价。平均房价高是因为出现了3套单价10000元/m2以上的房子。尤其是单价为12821元/m2的房子,它的价格远远超过其他房子,属于异常值。画出频数直方图如图2-3所示。
观察图2-3,可以看出该直方图的重心在左边,统计学上称为右偏(有个别非常大的数据存在),即它右边有较长的尾部。如果把异常值12821去掉,再画频数直方图如图24所示,此时比起图23来,图像要更对称些。
◎02不偏不倚——中位数
当出现异常值时,均值看起来不那么可信,我们就需要其他的描述统计量了,如中位数。中位数左右两侧的数据的个数各占总数据量的一半。它不受数据极端值的影响。
已知有n个数据,将数据按照从小到大排列,如果n为奇数,则排好序后的第[(n+1)/2]个数为其中位数,即中间位置的数;如果n为偶数,则排好序后的第[n/2]个数与第[n/2]+1个数的和除以2为其中位数。比如,如果有5个数,排好序后的第3个数为中位数;有6个数,排好序后的第3个和第4个数的和除以2为中位数,所以中位数可以是数据里的数,也可以不是。
例如:有数字3,6,8,4,3,5,3,9,一共有8个数,将这8个数字按照从小到大的顺序排列为3,3,3,4,5,6,8,9。其中第4个数和第5个数分别是4和5,则中位数为(4+5)/2=4.5。这8个数中大于4.5和小于4.5的各有4个。如果数字为6,8,4,3,5,3,9,一共有7个数,将这7个数字按照从小到大的顺序排列为3,3,4,5,6,8,9,则中位数就是第4个数,为5。这7个数中大于5和小于5的各有3个。
在本部分内容的案例1中,成绩的中位数是79分,大于平均分77.525分。如果去掉最低分5分,则平均分变为79.3846分,而中位数还是79分,两者更接近了。
案例2中房价的中位数为8962元/m2,这个数据比平均房价9232.8元/m2看起来更可信些。
案例3某学校要选拔学生去参加竞赛,名额只有一个。有两个学习能力相当的同学作为考察对象,他们两个成绩如下:
这两个同学的成绩的平均成绩和中位数分别是多少?
甲同学的平均成绩为99分,中位数为99.5分。乙同学的平均成绩为99.1分,中位数为100分。两个同学的平均成绩几乎一样,中位数乙比甲稍微高一点,但是差距不明显。两个同学的成绩几乎不分胜负,那到底要哪位同学去参加数学竞赛呢?我们可以试试标准差。
◎03少数服从多数——众数
众数指的是出现频数最高的那个数据。众数不是唯一的,可能有多个众数,也可能没有。众数是由英国统计学家皮尔逊首先提出来的,是一组数据分布的峰值,不受数据极端值的影响。平均值、中位数和众数这三个统计量都可以反映数据的集中趋势。
案例1中的成绩的众数为74,77,85,91,它们出现的次数都是3次。所以众数不唯一。案例2中由于房价的特殊性,没有众数。案例3中甲同学的成绩的众数为100,乙同学的众数也是100。说明两个同学考100分的时候最多。
对于均值、中位数有如下结论:
如果数据的分布是对称的,中位数和均值相等,应选择均值作为集中趋势的代表值。均值的主要缺点是易受数据极端值的影响。对于偏态分布的数据,均值的代表性较差。当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。当某个数据出现比较多的时候,用众数表示这组数据的集中趋势比较合适,因为它体现了整个数据的集中情况。
如果数据是左偏分布,说明数据存在极小值,均值较小,即均值<中位数,如案例1;如果数据是右偏分布,说明数据存在极大值,均值较大,即中位数<均值,如案例2。数据偏态时,中位数和众数的代表性要比均值好。
◎04最大的减去最小的——极差
极差又称全距,用来表示统计资料中的最大值与最小值之间的差距,即最大值减最小值后所得的数据。它反映的是数据的离散趋势。
案例1中的极差是99-5=94分,表示最高分与最低分的差为94分,两名同学的学习成绩相差非常大。
案例2中该小区的房价最低为7875元,最高为12821元,极差为12821-7875=4946元。价格波动范围较大,而面积为90~100m2的房子的单价,最低是8182元,最高是10102元,极差为10102-8182=1920元。该小区的房子的总价会相差17万~19万元。所以买房子的时候,即便看中了某个小区,也要多看几套房子,把户型、装修情况、地下室情况等都了解清楚,再下手也不晚。
买房时到底看几套房子合适?可以参考37%法则。如果你自己计划的时间是3个月内一定要买上房子,90天的37%为33天,那你就可以在前面33天积累经验,等33天后每看到一套房子,就与前面的比较,如果有比前面房子更好的,就出手买入。同样,如果你手里持有股票而不是用现金购买房子,因为要3个月后买房子,所以在3个月内要卖出,那这个时候你也可以在前33天内仔细观察股票的涨势,到第33天后就要根据涨跌的情况,选择合适的时机卖出,再购买房子。
◎05样本方差和标准差
注意是人的心理活动对一定事物的指向和集中,一些优秀的军事家在战场上仍然能沉静地、注意力高度集中地指挥战斗。但是有些人,短时间注意力可以达到很高的程度,但是不能持久,即注意力不稳定,只能在很短的时间内集中,但是不能长期集中,此时需要进行注意力的稳定性训练。比如,可以边看电视边训练自己的注意力。将电视机的音量调至几乎听不到电视的声音,然后盯住电视机画面,聚精会神地收看节目。采用这样的方法,可以提高注意力的稳定性。
现有14名男同学和14名女同学,对其进行注意稳定性实验。他们能保持注意力稳定的时间(单位:分钟)如下:
男生: 19,32,21,34,25,25,25,31,27,31,22,26,26,29
女生: 19,30,28,19,23,25,27,35,30,20,29,24,26,38
由上面数据能不能说明男生的注意力稳定性要高于女生呢?
计算男生和女生的注意力稳定的时间的平均值,发现均为26.64286分钟,男生和女生注意力保持的平均时间可以认为是一样的。那么男生和女生的注意力集中情况是否真的相同呢?通过均值是区分不出的。虽然男生和女生的注意力集中时间的均值相同,但是这些数据距离均值有多远呢?数据是在均值的周围摆动还是离均值比较远呢?如果在均值周围摆动,摆动的幅度如何呢?我们自然期望注意力集中时间在均值周围摆动,而且摆动幅度越小越好。
如何知道数据在均值周围摆动的情况呢?我们自然想到使用数据偏离均值的偏差(距离)表示,但是偏差有正有负,因此考虑使用绝对值。又因为绝对值作为统计量求数字特征时不太好处理,所以使用数据与均值的偏差的平方表示。先求每个数据与均值的偏差的平方,然后求和,得到所有的数据与均值的偏差的平方和,用公式表示为(x1-μ)2+(x2-μ)2+…+(xn-μ)2,其中n个样本观测值分别为x1,x2,…,xn,μ为样本均值。将偏差平方和除以n-1,得到常见的统计量之一的样本方差S2,样本方差计算公式为:
将样本方差的算术平方根称为样本的标准差,记为S。样本方差表示数据偏离均值的分散程度。如果样本方差小,说明数据集中,反之说明数据分散。涉及考试成绩、射击水平等,数据越集中,样本方差越小,说明发挥越稳定,不会出现较大的失误。关于蔬菜价格,我们自然也希望价格稳定,而不是忽高忽低,价格稳定也意味着样本方差小,价格波动小。
样本方差是衡量数据的离散趋势或者波动的统计量,它的数学期望等于总体的数学期望。
将男生的集中注意力时间代入,计算得:19.016
将女生的集中注意力时间代入,计算得:31.786
这两个样本方差说明男生的集中注意力时间较女生稳定(该案例仅用于讲解,不代表真实情况)。
下面给出使用Excel计算样本标准的过程,图2-5是原始数据,最后一行为均值,图2-6和图2-7为求样本标准差的过程。路径为:公式—自动求和—其他函数—统计—STDEV.S。STDEV.S为求样本的标准差S,标准差S的平方为样本方差S2。
在求样本方差界面中,number1中输入“F1:F14”,也可点击第F列的第一个数据,输入“:”,再点击第14个数据,将14个数据都选入,计算样本标准差。界面上出现样本标准差为4.360789323,如图28所示。样本方差为样本标准差的平方,为19.016。
求女生的注意稳定性的样本标准差过程和求男生的样本标准差过程相同,结果如图29所示。样本标准差为5.637882074。样本方差为31.786。
比较男生和女生的样本方差,发现女生的样本方差大于男生的样本方差,说明男生的注意力集中时间更具有稳定性,波动性没有女生波动性大。
另外,男生的注意力集中时间最小值为19分钟,最大值为34分钟,女生的注意力集中时间最小值为19分钟,最大值为38分钟。说明个别女生的注意力集中时间要长一些。
展开