信阅平台

作者简介

　　杨轶莘，瑞典厄勒布鲁大学商学院统计学博士毕业，北京诺贝伦思教育咨询有限公司高级咨询师，旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。

展开

内容介绍

　　《大数据时代下的统计学》是一本讨论时下热门话题——大数据的书，生动活泼地阐释了晦涩艰深的统计学原理，条理清晰地告诉读者如何从数据中获取智慧。
　　《大数据时代下的统计学》分为8章，第1章概述了大数据时代统计学面临的机遇和挑战。第2、3章讲述了统计学在思想方法及数据表述上和大数据处理方法的异同；第4章介绍了对统计学影响深远的正态分布；第5章探讨了大数据时代统计推断是否失效；第6章重点从统计学视角讲述了大数据时代最热门的变量间的“相关性”问题；第7章以一种比较开放的态度讨论统计学中一些有意思又实用的话题；第8章探讨大数据能够给企业、用户及整个产业和社会带来什么价值。
　　拥有《大数据时代下的统计学》，不仅可以使读者感受数字的美感和哲学的智慧，还能够使读者掌握思辨的洞察力。更重要的是，拥有《大数据时代下的统计学》就相当于拥有了一种武器，数据驱动的思维模式将会使读者在生活、工作中受益匪浅。

展开

精彩书摘

　　《大数据时代下的统计学》：
　　样本统计量是样本数据的函数。函数可以被理解为方程，通过这个方程浓缩了样本中所有数据的信息。比如，样本是100个学生的成绩，样本统计量是这100个学生的成绩均值。均值是由100个样本观测值通过均值公式计算得到的。但是，样本均值只是一个值而已，它浓缩了样本的信息，但所含的信息量却不如那100个观测值那样多、那样具体。但是，我们又离不开像均值这样的统计量，因为我们不可能随时随地打开一个Excel表格去查看那些冗长而杂乱的原始样本数据。
　　点估计是参数估计的重要组成部分。点估计的常见方法有矩估计和极大似然估计，而德军坦克的例子中用的是最小方差无偏估计。
　　衡量一个点估计量的好坏有很多标准，其中比较常见的标准有：无偏性、有效性和一致性。
　　由于抽样具有随机性。每次抽取的样本一般不会相同，由样本求的点估计的值也不尽相同。那么，要确定一个点估计的好坏，单凭某一次抽取的样本是不具有说服力的，必须通过很多次抽取的样本来衡量。因此，一个自然而然的衡量标准就是，在大量重复的抽样中，所得到的点估计值平均起来应该和总体参数一样。更正式一点的说法是，点估计的期望值应该等于总体参数的值。这就是所谓的无偏性（Unbiasedness）。
　　有效性是指，对同一总体参数，如果有两个无偏估计量，那么其中标准差更小的估计量更有效（Effectiveness）。因为一个无偏的估计量并不意味着它就非常接近被估计的参数，它还必须和总体参数的离散程度比较小。回顾一下之前章节提到的射击靶心的4张图，无偏却不有效的情况就是，射中的点集中在靶心周围一个直径较大的圆内。如果把靶心看作总体参数，这样的估计量距离靶心太离散了。
　　……

展开

第1章大数据时代下的统计学 1
1．1 统计学――天使还是恶魔 1
【知识点】统计学的定义 1
1．2 概率――上帝的指引 3
【案例1】硬币的指引 3
【案例2】赌徒的错觉 3
【知识点1】随机性 4
【知识点2】概率 4
1．3 小概率事件必然不会发生的事件 6
【案例】挑战者号航天飞机（STS Challenger）失事 6
【知识点】“必然会发生”和“必然不会发生”的事件 6
1．4 你真的了解数据吗 7
【案例】淘宝的客户评价体系 8
【知识点】数据的类型 8
1．5 数据来自哪里 10
【案例】大数据，大偏差――谷歌的流感预测模型真的靠谱吗 10
【知识点1】二手数据 11
【知识点2】相关关系和因果关系 11
第2章样本魅影 14
2．1 样本――窥一斑而见全豹，观滴水而知沧海 15
【案例1】客户满意度调查 15
【案例2】救护车垄断业务调查 16
【知识点】随机样本，方便样本和自愿回应样本 17
2．2 抽样――尝一勺锅里的靓汤 18
【案例1】红豆和绿豆 18
【案例2】“捉放法”估算鱼苗成活率 19
【案例3】被解雇的市场调研部员工 20
【知识点1】简单随机抽样 21
【知识点2】抽样中存在的错误风险 22
【知识点3】访问员 23
2．3 不回应误差――沉默不是金 24
【案例】不回应的影响有多大 24
【知识点1】不回应（Nonresponse） 24
【知识点2】如何降低不回应率 25
2．4 措辞的艺术――僧推/敲月下门 26
【案例1】娱乐圈话题：锋菲恋 26
【案例2】几字之差对于民众支持率的影响 27
【案例3】双重否定的疑惑 28
【知识点1】响应误差（Response Error） 29
【知识点2】有效性（Validity）和可靠性（Reliability） 29
2．5 大数据时代，当“样本”已成往事 31
【案例】Farecast，美国创业梦 31
【知识点】大数据的4V特征 32
第3章描述数据 34
3．1 均值――可能会说谎的天平 34
【案例1】中关村创业者平均39岁 34
【案例2】令人啼笑皆非的统计局数据 35
【知识点】均值计算 36
3．2 寻找中位数――排序，数到中间 37
【案例1】腾讯笔试题：大数据量寻找中位数 37
【案例2】淘宝卖家评分体系 38
【知识点1】求取中位数 39
【知识点2】四分位数 40
3．3 标准差、标准误，傻傻分不清楚 42
【案例1】均值-方差证券资产组合理论 42
【案例2】语文成绩调研 42
【知识点1】标准差（Standard Deviation） 43
【知识点2】标准误（Standard Error） 43
3．4 图形替数据说话――“剩女”和相亲市场 46
【案例】“剩女”和潜力巨大的相亲市场 46
【知识点1】饼状图（Pie Chart） 48
【知识点2】条状图（Bar Chart） 49
【知识点3】散点图（Scatter Plot） 50
3．5 数据可视化――“云想衣裳花想容” 51
【案例】谁在开网店 51
【知识点1】什么是数据可视化 54
【知识点2】数据可视化主要应用领域 55
【知识点3】数据可视化的工具 55
第4章正态女神 57
4．1 期望――量化你的预期 58
【案例1】掷骰子和伯努利试验 58
【案例2】赌场就是概率场 59
【知识点1】概率分布 60
【知识点2】期望（Expectation） 61
【知识点3】方差 62
4．2 大数定律――为什么十赌九输 63
【案例1】澳门风云 63
【案例2】谁会是被骗的大傻瓜 64
【知识点】大数定律 65
4．3 正态分布――大道至简，大美天成 65
【案例1】高尔顿钉板 65
【案例2】女博士嫁人难，谁之过 67
【知识点】正态分布 68
4．4 中心极限定理 70
【案例】肯家和麦家的博弈 70
【知识点】中心极限定理 70
第5章统计推断 74
5．1 点估计――统计学家比间谍干得漂亮 75
【案例1】二战中的德军坦克数 75
【案例2】首家新鲜咖啡速递服务企业 76
【知识点1】样本统计量和总体参数 77
【知识点2】点估计 77
5．2 置信区间――责善切戒尽言 79
【案例】美国盖洛普公司的民意调查 79
【知识点1】置信水平 79
【知识点2】置信区间 80
5．3 两类错误：有罪被判罪和罪被判有罪哪个更严重 81
【案例1】法律中的人文精神 81
【案例2】抗击埃博拉要避免两类错误 82
【知识点1】零假设和备择假设 84
【知识点2】两类错误 84
5．4 假设检验――“凑巧”可以拒绝吗 85
【案例1】奶茶情缘 85
【案例2】咖啡新鲜吗 87
【知识点1】显著性水平 88
【知识点2】p值 88
【知识点3】统计显著 88
【知识点4】统计显著 vs．实际显著 89
【知识点5】假设检验 vs．置信区间 89
【知识点6】单侧检验 vs．双侧检验 90
5．5 p值――打开潘多拉魔盒的钥匙 92
【案例】金榜题名望、少年得志梦断 92
【知识点1】p值的历史和思想 93
【知识点2】p值误用 94
第6章变量间的关系 96
6．1 卡方分析――细腻的眼神里岂容得半粒沙 97
【案例1】仙道迟到事件发生率分析 97
【案例2】性别和文化程度是相互独立的吗 98
【知识点1】卡方分布 99
【知识点2】卡方检验 100
6．2 相关性分析――早起的鸟儿有虫吃 102
【案例1】早起的鸟儿有虫吃 102
【案例2】化妆品销售额与广告费的关系分析 103
【知识点1】相关关系 104
【知识点2】相关分析 105
【知识点3】相关表、相关图和相关系数 106
【知识点4】相关系数t统计量 107
6．3 ANOVA――地域，我们没有什么不同 107
【案例】地域歧视问题 107
【知识点1】方差分析 108
【知识点2】方差分析统计模型 109
【知识点3】离差平方和及其分解 110
【知识点4】均方 111
【知识点5】AMOVA F统计量 112
【知识点6】方差分析表 113
6．4 回归分析――对不起，其实我也想长高 117
【案例1】子女身高遗传学的发现 117
【案例2】身高地区差异分析 117
【知识点1】回归分析 119
【知识点2】随机误差项 119
【知识点3】最小二乘法 120
【知识点4】回归分析T检验 121
【知识点5】回归分析F检验 122
【知识点6】拟合优度R2 123
第7章统计杂谈 124
7．1 为什么对回归情有独钟 124
【回归和电影】 126
【回归和手游】 128
7．2 调查问卷中的分类变量 132
【疼痛】 133
【Rank-Invariant】 134
【Svensson Method】 135
【工作环境和员工满意度】 136
7．3 条件概率和更多的信息 138
【生男生女的问题】 139
【门后的世界：到底是谁错了】 140
7．4 极大似然估计――看起来最像 142
【白狐，iphone 6 plus和房价】 143
7．5 R you happy 145
【名门闺秀SAS】 145
【国民初恋SPSS】 146
【小家碧玉Stata、Minitab、Excel】 147
【清新萝莉R】 148
7．6 贝叶斯 149
【起源】 150
【定义】 150
【自拍杆和蓝牙耳机】 152
7．7 来自星星的统计陷阱 155
【被黑的统计机构】 155
【统计局的奈】 157
【王老吉状告加多宝】 158
第8章大数据，在水一方 161
8．1 洛阳纸贵――大数据思维 161
【案例1】罩杯和败家程度 166
【案例2】外滩踩踏悲剧 167
【案例3】大数据和途牛网 169
8．2 大数据驱动运营 171
【案例】DataEye，数据驱动手游运营 175
8．3 商业智能――决策者的锦囊 177
【案例】广告业的商业智能 178
8．4 市场智能――商业智能的衍生智慧 179
8．5 消费智能――当数据成为一种服务 182

展开