本书用轻松话语讲述一线数据分析技术,既有统计方法与分析技巧,更有奇闻趣事和哲学感悟,为你的数据分析之路指点迷津。
我们能相信统计么? 抛了5次硬币,结果都是正面,抛硬币是否肯定是正面?如何从高层的统计指标看透数据后面的本质?如何在大数据时代获取战略制高点,确定自己的职业发展定位?从一个互联网公司数据分析师的成长经历,为您娓娓道来,数据分析中的奇闻趣事、心得总结、方法技巧与哲学感悟。
当心!“数据”一样会说谎!
例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子款,25%选裤子款。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高?
根据之前讲座交流的经验,对于第一次阅读这份数据的朋友,大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来,大家的结论会不会有变化呢?
例2的完整数据:艺术学校有女生900人,男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1,而看到一个穿裤子女生的概率为90% × 25% = 0.225,所以远远看到一个穿裤子的同学,他更有可能是女生!
例2只公布了似然概率,却隐藏了先验概率信息,使人的判断发生迷惑。什么是似然概率和先验概率呢?这涉及到统计学中的贝叶斯公式,描述一件事物发生的概率与两个概率相关,先验概率和似然概率。
数学表示:P(h1 | D) ∝ P(h) × P(D | h)
假设h代表我们对某个事物的判断,如果有两个判断(如某同学是男或是女),可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后,判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下,观测到数据D的概率。那么,贝叶斯定理说明了“观测到数据D,判断假设h为真的概率”,与“假设h天然出现的概率(P(h),称为先验概率)”和“假设h为真的情况下,观测到数据D的概率(P(D|h),称为似然概率)”成正比。
其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D),因为对于不同的假设h,数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用,通常可以忽略。
回到艺术学校的例子,观测数据D =看到该同学穿的是裤子,假设 h1=他是男生,假设h2=她是女生。
因为艺术学校男生有100人、女生有900人,所以先验概率 P(h1) =10%、P(h2)=90%。
因为男生 100%会选择裤子,女生 25%会选择裤子,所以似然概率P(D | h1) =100%、P(D | h2) =25%。
那么,校园中随意看到了一位穿裤子的同学,
他是男生的概率近似:P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1
她是女生的概率近似:P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225
可见女生的概率要比是男生的概率高1倍多,这位穿裤子的同学更可能是女生!
注释:上述计算亦可以加上P(D)的考量,会得到精确的概率结果。女生有225人穿裤子,男生100人穿裤子,校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D),得到他是男生的概率为30.8%,她是女生的概率为69.2%,之间的差距比例是一致的(0.1/0.225 = 30.8%/69.2%),所以通常可以省去计算P(D)。
从这两个例子可见,隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论。在某些场景下,更细节的相关信息是不能忽略的,隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。
第一篇 道 1
第1章 大数据分析之道 2
1.1 做好数据分析的关键 3
1.2 业务调研 10
1.3 创新思考 14
1.4 逻辑推理 25
1.5 可行建议 48
1.6 补充阅读:数据分析报告的撰写要点 51
第二篇 术 63
第2章 统计是怎么发明的? 64
2.1 重启思维模式 65
2.2 统计的意义及指标 71
2.3 统计图形是如何设计的? 102
第3章 我们能相信统计吗? 115
3.1 统计可信吗? 116
3.2 基于概率的信任 120
3.3 如何实现基于概率的信任? 126
3.4 应用理念:细致与置信的权衡之道 140
3.5 评估:正确的认识世界 144
3.6 设计统计方案中的方法论 156
第4章 统计分析方法 159
4.1 拆指标-1 分布分析 161
4.2 拆指标-2 趋势分析 165
4.3 拆指标-3 因素分析 177
4.4 拆数据-1 个案分析 186
4.5 拆数据-2 异常分析 188
4.6 拆数据-3 分组分析 193
4.7 附加阅读:消费者偏好和企业差异化战略 197
4.8 不同分析方法的结合与创新 209
4.9 与领域相关的分析方法 213
第5章 数据分析的高级工具:OLAP与机器学习 220
5.1 OLAP技术 221
5.2 无监督学习模型 225
5.3 监督学习模型 234
第三篇 释 287
第6章 大数据时代 288
6.1 大数据的价值 289
6.2 企业如何向数据技术转型? 301
6.3 数据技术的职业发展 315
第7章 数据技术团队组建和发展 331
7.1 自我修炼与领导团队 332
7.2 数据技术团队的组织结构 334
7.3 数据技术团队发展中的优劣势 336