第一章 数据分类
信息时代, 各类数据迭代更新的速度非常快, 需要分析的数据体量更是惊人, 而每种数据都有属于自己的属性。 在做数据挖掘或数据分析的时候, 首先要学会分析数据属于哪一种类型。
统计学将数据分为四类: 定类、 定序、 定距和定比, 这四种数据类型是从低到高的递进关系, 后面类型的数据可以用前面类型数据的分析方法来进行分析, 但是反过来不行。 定比数据可以进行加减乘除, 如身高、 体重等可以进行加减乘除, 但是定类数据不可以, 如性别中令男为 0, 女为 1 时, 是不可以进行加减乘除的, 因为这样的计算没有任何意义。
第一节 定类数据
定类数据就是分类数据和标记数据。
分类是给数据定义一个类别。 这种数据类型对所研究的对象进行分类, 如把性别分成男女两类。 再如, 购物网站的主页上有所卖商品的类型。 若是想买冰箱, 可以在京东商城电脑版的主页上找“家用电器”, 也可以在淘宝网的 “大家电/ 生活电器” 中查找(图2 -1)。 无论如何, 它都要属于某一个类, 而且它一旦属于这一类, 就不再属于另一平级的类。 即类与类之间不能有交集。
一般而言, 我们认为抛硬币的结果只有两种: 正面向上和反面向上。 只能进行 “ = ” “≠”, 或者 “属于” “不属于” 这两种操作, 这也属于分类。
标记就是给对象分配一个标签, 比如, 学生的学号可以代表学生, 但是不能说 1 号学生的成绩就不如 2 号学生。 运动场上,运动员的衣服号码为 1 号、 2 号、 3 号……但也不能说 2 号就比 1号强。 用数据作标记, 不表示数量的多少, 也不能进行加减乘除运算。
第二节 定序数据
学历分为小学、 初中、 高中、 大学 (本科和专科)、 研究生(硕士和博士研究生)。 人的一生分为婴幼儿、 少年、 青年、 中年和老年阶段。 学生的成绩可分为优秀、 良好、 及格和不及格, 当然也可以用 A、 B、 C、 D 等档表示。 某个城市的小区可以分为高档小区和一般小区, 小学分为重点小学和普通小学。 这些例子都有共同的特点, 即这些例子中的数据都是可以排序的, 当然也可以分类。 定序数据是可以进行比较的, 既可以区分异同, 又可以区别研究对象的高低或大小, 但是只能进行排序, 不能进行加减乘除等操作。
对于文字形式的数据, 我们可以对其进行赋值, 将其数字化, 比如, 小学为 1, 初中为 2, 高中为 3, 大学为 4, 研究生为5。 但是绝对不能进行加减等操作。 在这个案例中, 4 和 5 的差距到底为多少? 这是没法用数据衡量的, 只能进行比较。 定序数据比定类数据高级一些, 所以也可以进行分类操作。
第三节 定距数据
定距数据有数值、 有单位, 可以进行加减, 但是不可以进行乘除, 因为没有一个真正的零点。 定距数据可以测量大小、 次序之间的距离, 因而具有加与减的数学特质。 它还拥有定序和定比数据的所有特点。
温度就是一个定距变量。 如图 2 -2, 天气预报说, 六盘水星期二的最高温度为 28℃, 比前一天高 3℃, 那我们就可以想到星期一的最高温度是 25℃, 它属于比较炎热的天气 (分类)。 我们可以按照数字大小给每天的温度排序, 还可以对温度进行加减运算, 比如, 星期二比星期一高 3℃。 上周日最高温度是 23℃,25℃比 23℃高 2℃, 反映了温度在逐渐上升。 值得注意的是, 零度并不是没有温度, 也就是说, 0℃并不是一个真正的零点。
智商也是一个非常典型的定距变量。 小明的智商为 120, 小强的智商为 100, 他们智商的差距为 120 -100 =20, 但是不能说小明的智商是小强智商的 1. 2 倍。
展开