然而,也并不是所有的分布曲线都是正态分布的,因此我们引入倾斜分布这一概念来表示这种情况。在这样的分布中,总体的各个数值并不是对称分布的;也就是说,这样的分布总会有一边比较宽,而另一边却比较窄,如图
3.2所示。
如果人们的着装尺寸符合这样的一个倾斜分布的话,那么服装厂就得换一套生产方案了,它就必须生产大量大号的和特大号的衣服而生产较少量小号的和特小号的衣服了。那么,我们为什么在了解正态分布的同时还需要了解倾斜分布呢?这是因为,很多公司在分析问题时,容易想当然的把一些关键性的数据作为正态分布来分析,而事实上,很多情况下,这些数据是成倾斜分布的(比如,客户分布)。而这样做的后果就是,这些公司会由于一时的疏忽而给自己带来巨大的损失。
倾斜分布曲线中的平均数、中位数和众数都是不相等的,因为这条曲线并不是对称的。比如在图3.2所示的正倾斜分布中,该分布的平均值大于众数和中位数,而如果是在负倾斜中,平均数是小于众数和中位数的。
相关性
找出数据之间的相关性,是一个新手所要面临的比较棘手的问题。在统计学中,为了要找出数据之间的相关性,你必须学会如何计算相关性系数。
相关性,从直观上是比较好理解的。假设你要开一个雨伞店并要确定你开店的地点,你可能很容易地就可以想到两个相关点一是找一个雨多的地方;二是找一个人多的地方。最后,你可能会决定要在一个雨量充足的城区开一间雨伞店。如果我们从另外一个角度来理解这件事情,那么就是雨量、人口密度和伞的销量是有相关性的。但不幸的是,并不是所有的相关点都是这么容易想到的,有些事物之间的相关性甚至可能是你想都不敢想的。
那么我们对相关性这个概念又需要了解多少呢?为了了解两个数值之间的相关性,我们必须首先知道,当其中的一个变量变化时,另外一个变量会随之如何变化。也就是说,你必须要知道它们之间的数学关系。回忆一下小学或者初中时上数学课的情形,我们学到许多关于x,)7的方程,我们也会经常讨论一些当x变化时,y会如何变化的问题,比如线性关系、对数关系、指数关系和二次函数关系等。
当然,你也不必浪费时间去把这些关系全部搞懂,你所需要做的仅仅就是理解一种处理大量数据的方法——线性回归法,这种方法会将数据线性相关起来。
……