搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
拆穿数据胡扯:the art of skepticism in a data-driven world
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787521738797
  • 作      者:
    (美)卡尔·伯格斯特龙(Carl T. Bergstrom),(美)杰文·韦斯特(Jevin D. West)著
  • 出 版 社 :
    中信出版集团股份有限公司
  • 出版日期:
    2022
收藏
作者简介

美国华盛顿大学生物学系教授。他研究流行病如何在人群中传播,以及信息如何大规模地在生物和社会系统中流动——从细胞内对基因表达的控制到社交媒体上错误信息的传播。他广为人知的是跨界整合自然科学和社会科学思想的能力,特别是在信息研究领域造诣很深。他发表了多篇前瞻性的文章,涉及信息科学、计算机科学、控制论、进化生物学、信息论、科学哲学、物理学等方面,其中有很多发表在《自然》《科学》《美国国家科学院院刊》上。 美国华盛顿大学信息学院副教授、公众知情中心主任。 

展开
内容介绍

“用数据说话”是互联网时代的通用思维方式,有人说数据不会骗人,真的是这样吗?

X 让人看不懂的数据分析和神奇算法

X 莫名奇妙的数学方程

X 强行联系因果的统计学论文

X 某些新闻报道或PPT中花里胡哨的图表

……

我们都曾经或正在被这些东西蒙蔽,却往往毫无察觉,甚至乐在其中!

一些貌似可靠的数据来源,也可能藏着一本正经的胡说八道。比如TED演讲中的统计数字、《纽约时报》等媒体报道的大数据分析新算法、甚至是医学期刊中的诊断数据……虚假信息都有可能鱼目混珠,而你能分辨其中哪些是真正有用的信息,哪些只是胡扯吗?

对此,华盛顿大学专门开发了一门尚未开课即爆满的公开课,而这本书正是源自这门引发热议的课程。

两位作者花了多年时间研究打着数学和统计学幌子的胡扯,犀利幽默地对它们分门别类一一剖析,帮助我们培养批判性思维,有效分析海量数据和观点,拆穿无用数据的精致伪装,在信息时代做个游刃有余的明白人。

话说回来,除了教会你如何识别数据胡扯,当你迫不得已需要胡扯时,它也会成为一本实操性强的工具书呢!


展开
精彩书摘

前言(节选)

当今社会胡扯现象随处可见,令人不胜其烦。政治家无视事实信口开河,科研人员把发新闻稿视为科学研究,硅谷的初创公司将胡扯发展到了艺术的高度,大学奖励的是胡扯而不是分析思维,大多数管理活动似乎只不过是一个对胡扯进行编排组合的复杂过程。心怀不轨的广告商朝我们眨眨眼,诱导我们和他们一起把胡扯进行到底,而我们也眨眨眼表示回应——但与此同时,我们就会放松警惕,对他们奉送的修饰过的胡扯信以为真。胡扯在具体问题上误导我们,破坏我们对一般信息的信任,因此会污染我们这个社会。尽管能力有限,但我们希望可以通过本书,对这一现象给予回击。

…………

要彻底消灭胡扯,就需要准确地了解它是什么。这就有点儿棘手了。

首先,“胡扯”(bullshit)既是名词也是动词。我不仅听腻了你的胡扯(名词),也可以反过来跟你胡扯(动词)。这很好懂。简单地说,胡扯作为动词就是指说一些胡扯的话。

但是,“胡扯”这个名词到底指的是什么呢?和许多人试图用哲学概念匹配日常语言的努力一样,试图为它制定一个泾渭分明的定义的努力也必然徒劳无功。因此,我们将从例子着手,描述一些可以称之为胡扯的东西。

大多数人都认为自己擅长发现胡扯。当胡扯以修辞或花哨的语言形式出现(我们称之为老派胡扯)时,他们这样想也许没有错。

老派胡扯似乎并没有消失,但随着新派胡扯的兴起,它似乎没有那么引人注目了。新派胡扯使用数学、科学和统计语言来制造严谨准确的印象。它们利用数字、统计数据和数据图表粉饰那些可疑的论断,给它们披上了一层合理的外衣。新派胡扯可能会采用下面这些形式:

•根据货币汇率加以调整后,我们表现出色的全球基金在过去9年中有7 年跑赢了市场。

(回报率到底是如何调整的?该公司有多少基金未能跑赢市场,相差多少?就这个问题而言,是某一只基金在9年中有7年跑赢了市场,还是在这7年中每年都有一只不同的基金跑赢了市场?)

•虽然没有统计意义(p = 0.13),但我们取得的结果突出表明了我们靶向治疗肿瘤的临床意义(5年生存率比为 1.3),并对当前的治疗范式提出了挑战。

(如果一个结果没有统计意义,那么讨论它的临床意义又有什么意义呢? 5年生存率是这种特定癌症的相关指标,还是说大多数患者在3年内死亡?为什么我们要认为这“对当前的治疗范式提出了挑战”?)

•该团队的卷积神经网络算法可以从一个由人类代谢组、转录组和蛋白质组构成的多层网络中提取底层控制逻辑。

(什么是多层网络?这些不同的“组”之间的连接有什么重要意义?如何测量?作者所说的“控制逻辑”是什么意思?我们如何知道这些系统真的是通过一个底层控制逻辑连接到一起的?我们如何确证这种方法可以提取这个底层控制逻辑呢?)

•我们的系统筛查显示,34%的有行为障碍的二年级学生承认在过去一年里至少闻过一次神奇马克笔。

(这个数据很重要吗?如果真的很重要,那么闻马克笔这个行为是“行为障碍”的原因还是结果?有多少没有行为障碍的二年级学生承认闻过马克笔?也许这个比例更高!)

新派胡扯之所以特别有效,是因为我们中的许多人觉得没有资格质疑以数量形式呈现的信息。这让那些新派胡扯者们正中下怀。要反击,就必须学会在合适的时机,以合适的方式质疑这些言论。

…………

在教学中,我们一直在教导学生如何对数据进行逻辑和定量思考。本书源于我们在华盛顿大学教授的一门叫作“Calling Bullshit”(与本书同名)的课程,目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。


新的信息技术已经改变了我们的科学和社会交流方式。随着信息获取途径得到改善,信息超载的现象愈演愈烈。我们希望本书能帮助你面对。


展开
目录

推荐序1 科学地对抗科学的胡扯的“胡扯” / V

推荐序2 拨开扯淡的迷雾 / IX

推荐序3 闲得没事也别胡扯 / XIII

前 言 / XVII

第1 章 胡扯无处不在

惯于欺骗的甲壳类动物和狡猾的乌鸦 / 003

狡辩之词和律师的语言 / 008

谎言传千里,真相难出门 / 012

第2 章 媒体、信息和错误信息

印刷厂就是妓院 / 022

不加渲染的事实宛若凤毛麟角 / 025

偏见性、个人化和对立 / 029

错误信息和虚假信息 / 033

新型造假者 / 037

第3 章 胡扯的本质

胡扯与黑箱 / 048

刑事机器学习 / 051

第4 章 因果关系

夜晚天空红艳艳,水手脸上笑容现 / 060

关于因果关系的思考 / 064

相关性不会增加报纸销量 / 068

延迟享乐与共同原因 / 076

伪相关性 / 078

吸烟不会导致死亡? / 083

如果其他方法都行不通,那就人为操控吧 / 084

第5 章 数字与胡扯

提取数字 / 095

有害的百分比 / 098

古德哈特定律 / 106

数学滥用 / 110

僵尸统计数据 / 115

第6 章 选择偏倚

你看到什么取决于你看的是哪儿 / 126

隐藏在墨菲定律背后的原因 / 129

帅哥和顶级程序员 / 137

音乐才华的致命危险 / 143

消除选择偏倚 / 148

第7 章 数据可视化

数据可视化的发端 / 158

鸭子! / 162

水晶鞋和丑陋的继姐 / 166

邪恶的轴 / 177

比例油墨原理 / 192

第8 章 大数据与胡扯

机器是怎么看到东西的 / 213

废料进,废品出 / 219

同性恋雷达和胡扯的结论 / 221

机器是怎么思考的 / 226

机器为什么失败 / 230

第9 章 科学的易感性

检察官谬误 / 242

p 值操纵和发表偏倚 / 251

点击诱饵科学 / 260

胡扯科学的市场 / 265

科学为什么有用 / 271

第10 章 辨别胡扯

1. 质疑信息来源 / 278

2. 小心不公平的比较 / 281

3.如果好得或糟糕得不像是真的…… / 284

4. 从数量级考虑 / 287

5. 避免证真偏差 / 292

6. 考虑多个假设 / 295

辨别网上的胡扯 / 296

第11 章 驳斥胡扯

使用归谬法 / 306

要让人难以忘记 / 308

寻找反例 / 311

使用类比 / 312

重新绘制图表 / 314

使用零模型 / 316

揭穿者心理 / 319


致 谢 / 329

注 释 / 333

参考文献 / 349


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证