《揭开数据真相:从小白到数据分析达人》收录了生活中常见的统计图表、各类数据,并告诉我们如何“阅读”这些数据,从中发现被掩盖或忽视的数据真相,了解真正的现实。
掌握书中的这些技巧,相信你会炼成一双火眼金睛,一眼看穿数据背后内涵,做出真实的判断。
统计数据之所以强大有力,原因在于它对我们的希望、梦想和信仰无动于衷——数据让我们客观地看待事物。不过,当人们不喜欢数据告诉我们的结果时,常常对其进行操纵……因此懂得解释统计数据,了解各种歪曲、滥用数据的技术对于理解数据真相是非常必要的。
《揭开数据真相:从小白到数据分析达人》教给读者神圣的技术,让读者学会如何质疑“看得见”的数据,并挖出“看不见”的数据真相,还原基本的事实。
《揭开数据真相:从小白到数据分析达人》适合所有对数据分析感兴趣的读者。
引 言 X
第1 章 几乎不可信的各种图形 1
燕麦的降胆固醇功效 1
美化上升的犯罪率(纯属虚构) 4
哪家汽车制造公司更棒? 8
条形图中的党派差异 10
在线广告衰退正式开始 12
美化SAT 成绩 17
美国中西部生热燃料消费价格飞涨 20
交通事故死亡人数减少了吗? 24
恶化房地产低迷状况 25
超大号熊猫金币 27
吊顶条形图的巧妙骗术 28
第2 章 所比较的群体旗鼓相当吗? 31
加利福尼亚州是否比伊拉克更危险? 31
全球变暖和耸人听闻的飓风损失 33
揭穿数据谎言
VI
某中西部城市学习成绩飙升的表象 36
租金辅助计划与犯罪率上升有关系吗? 41
第3 章 先射箭,再画靶 45
冥想实验 46
关节炎患者的天大好消息――或者相反 48
旧车换现金计划“惨败” 49
民意调查公司/智库合作关系 51
杰·雷诺居然也操纵统计数据 54
第4 章 诚实统计的力量 56
忽视统计警告,丧失4000 条生命 56
数学对阵专业品酒师 58
数学对阵法律专家 60
统计――18 个月挽救100000 条性命 62
统计――帮助急诊室医生做出更好的判断 64
统计――提高棒球队成绩?(棒球星探对阵计算机) 65
统计的早期利用,挽救数千生命 67
第5 章 故施迷雾 69
辛普森案 69
雷氏综合征如何导致数百例儿童死亡――这本来可以避免! 73
导致年轻女子中风的厌食剂 74
烟草行业――统计操纵与故布迷阵的行家里手 75
石棉:寿险公司所知道的、石棉行业故作不知的危险 79
VII
第6 章 资助效应 83
钱能控制数据,钱能限制公众得知负面结果 83
制药公司刻意压制负面数据后果可能很严重
(抗抑郁药物帕罗西汀的故事) 85
钱可以影响医生,可以给医生带来偏见 87
抗抑郁剂与安慰剂――出人意料的胜出者 88
资助效应甚至会伤害新生儿重症监护室中最易受伤害的儿童 90
第7 章 烂逻辑 93
新款雪佛兰福特汽车的惊人燃油效率230 英里每加仑 93
为什么患糖尿病的人越来越多? 95
到2048 年,每一个美国人的体重都会超重 96
解开谜团:为什么加拿大人的预期寿命比美国高 98
夸张的广告 99
非常奇怪的逻辑 101
第8 章 因果与相关乱象 103
恢复前囚犯的投票权将降低犯罪率 104
因果关系混淆会导致丧失生命 108
学习成绩好的关键是让家长出席家长会 112
音乐与学习成绩 113
第9 章 要看就看全部数据 116
选举奥巴马总统搞垮了股市 116
广告商与有选择地使用数据 119
您会选择哪家宾馆? 121
揭穿数据谎言
VIII
我该买黄金吗? 123
有可能遭到操纵的合理图形 125
第10 章 确认性偏差(所愿即所见) 128
星座效应 128
预测死亡的猫 130
分母在哪里? 133
画中音乐 137
《秘密》 141
确认性偏差的负面特性 144
辅助沟通 148
第11 章 稻草人论证术 152
医疗保健辩论策略 152
2010 年煤矿爆炸以及首席执行官的稻草人辩护术 156
第12 章 操纵均值、中位数和众数 161
第13 章 轶事证据 168
疾病与轶事证据 169
磁疗 171
占卜杖探测术 172
外星人奇遇 174
结论 176
第14 章 如果你的事业缺乏统计支持,那么,创造吧 177
潜意识广告的力量 177
IX
死亡率畸高的神经性厌食症 179
美国的300 万名无家可归者 180
其他影响公众的错误统计 181
第15 章 令人费解的百分数 183
被百分数愚弄的医生 183
住家孩子增长趋势 184
移民家庭的刻苦孩子 185
需求神秘下降500% 187
我当初真应该别开始锻炼 188
了解百分数可以救人性命 191
第16 章 你的样本合理吗? 195
代表性样本的重要性 195
总统大选:罗斯福与兰登 197
当研究参与人自我选择或样本有偏差,则结果几乎总是无效的 198
双盲的重要性,随机临床实验 200
检验组大小的重要性 202
注释 204
大数据和数据分析是近年来炙手可热的概念,通过数据驱动产品开发(产品经理也需要数据来验证产品设计的逻辑),通过数据来做市场营销(增长黑客),通过数据AB测试改进用户体验(有一家专门做AB 测试优化的公司Optimizely,每年也会召开Opticon大会),通过数据来提高内部效率改进流程(比如广告产品,点击率转化),已经在硅谷有很多广泛实践,并达成共识。
但数据会不会欺骗我们,造成偏见?个人认为数据本身是客观的,但每个人看待问题的角度和目的不同,可能人为地造成错觉甚至幻觉。在学校从事研究工作的时候,导师就强调怎么选取样本和数据,如果为了达到某些“好”结果,精心挑选数据,甚至篡改数据,这就违背了科研精神,一旦发现,轻者论文贡献取消,重者可能赶出科研圈。所以如何辨别真理和谬误,利用好科学工具去更好的认知,这就是新的挑战。可能读者会抱怨,没有经过系统科学训练,在茫茫数据和文献中如何分析和判断,是不是要再去读一个数学课程呢?这其实也没有必要,对大多常人来说那些数学公式是浪费时间,主要还是见识一些常见套路,遇到类似的能举一反三,升华出来一些方法论就更棒了。
这本书就从很多实例中总结了数据分析的技巧和“骗人”招数。比如通过内在不完备的样本,精心挑选的平均数,统计图表范围的切割,相关系数因果关系的误解,混淆逻辑,操控是非,达到一些不可告人的目的。这并不是一本教科书,让你去学习深奥枯燥的统计数学,而是用风趣幽默的例子从别的视角来观察世界,启迪智慧。
——董飞,硅谷数据工程师(微信公众号:董老师在硅谷)
世上有三种谎言:小谎,大谎,和统计数字(本杰明·迪斯雷利)
数据让人着迷,真相与规律深藏其中,混沌中蕴含秩序;统计让人迷惑,看似精巧实则冰山一角,图表里一目了然的“事实”背后是作者有意无意掩盖或忽略的惊天“秘密”,堪称一场精巧玲珑的“局”。是数字在说谎?是幕后诡计?还是读者想错?让我们跟随本书精彩浅显的案例,看一幕幕心机大戏是如何上演,又如何“穿帮”的,擦亮双眼,做大数据时代的数字流言终结者。
——新浪微博@爱可可-爱生活
互联网时代带来了数据的爆发,如何分析数据对现代社会的生活和工作变得愈发的重要。数据分析是一门复杂的学科,同时又跟生活密切相关。如何解读公司、机构发布的数据?如何看待朋友圈爆款文章里罗列的数据?如何看待各种体育赛事相关的各种数据?看过这本书之后,或许你会有一个全新的认识。
——邹昕,Facebook数据科学家(微信公众号:再生谈)