搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
对“伪大数据”说不:走出大数据分析与解读的误区
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787300203676
  • 作      者:
    (美)冯启思(Kaiser Fung)著
  • 出 版 社 :
    中国人民大学出版社
  • 出版日期:
    2015
收藏
编辑推荐
  

  畅销书《数据统治世界》作者、美国纽约大学统计学教授、超高人气的博客“垃圾图表”博主新力作!
  引领你拨开大数据分析的层层迷雾,帮你认清大数据分析与解读背后的真相。
  在这个充满数据的世界里,我们不仅要让数据为我们所用,更要擦亮双眼,培养敏锐的“数字直觉”,在别人为大数据大唱赞歌的时候,保持清醒,甄别其中的真伪。
  
  
  海报:

  

展开
作者简介
  冯启思(Kaiser Fung),是一位专业的统计学家,在市场营销和广告领域中,拥有超过15年的应用统计学方面的经验,曾任职于美国天狼星卫星广播公司、美国运通公司、[x+1]公司、Exodus通信公司、美国圣思网络公司等知名企业。他也是纽约大学的兼职教授,教授实用统计学,还是人气博客“垃圾图表”(Junk Charts Blog)的博主,率先对大众传媒领域的数据和图表进行了重要研究,并出版了一本广受赞誉的图书——《数据统治世界》。
展开
内容介绍
  从另一个角度认识大数据的力量,带我们走出大数据分析与解读的误区,帮助我们培养出数字直觉。
  我们生活在大数据的时代,在《对“伪大数据”说不:走出大数据分析与解读的误区》中,统计学专家冯启思将告诉你在什么时候可以接受大数据“专家”的结论,什么时候要对这些统计数字提出质疑。他深入人们日常生活和工作中广泛关注的话题,如学校排名、健康指数、就业统计、团购网站等,通过对这些数据的分析与解读来告诉人们什么才是正确的答案,如何才能培养出数字直觉。作者还在书中告诫人们在当今这个信息超载的时代,媒体充斥着各种不良信息,千万不要轻易地信以为真,要学会对“伪大数据”说不!
展开
精彩书评
  ★《对“伪大数据”说不》这本书并未将强调的重点放在大数据的规模上,而是很恰当地放在对大数据的分析与解读上。书里讲了许多有趣的故事,有许多可以借鉴的经验,总之,阅读此书不失为一种培养数字直觉的好方法!
  ——托马斯·H·达文波特(Thomas H.Davenport),《竞争分析能力》(Competing on Analytics)一书的联合著者,巴布森学院信息技术与管理总统特聘教授

  ★没有一本书能像《对“伪大数据”说不》这本书一样,以一种通俗易懂的方式将大数据分析诠释得如此透彻!让人耳目一新!使你在阅读中也会不知不觉地变得聪明起来。值得推荐!
  ——阿维纳什·卡希克(Avinash Kaushik),谷歌数字营销专家、《精通Web Analytics 2.0》作者

  ★冯启思先是说出了坏消息:更多的数据并非灵丹妙药。然后又回过头来,用来自商业、政治、健康保健、政府以及教育前线的富有刺激性的故事,为我们揭示出数据分析与解读的陷阱。面对陷阱,我们的补救方法不是高学历,也不是常识,而是读读这本《对“伪大数据”说不》的书吧。
  ——埃里克·西格尔(Eric Siegel),预测分析世界大会(Predictive Analytics World)的创办人,《大数据预测》(Predictive Analytics)的作者
展开
精彩书摘
  我们生活在一个任何人都法摆脱数据的大数据时代。数据越多,人们做出的分析就越多——呈现指数增长;人们分析得越多,制造出的烟幕弹也就越多。因此,保持清醒的头脑就变得非常重要。
  大数据是高科技时代的流行语,它大约出现在2010 年。这个行业喜欢将两个词组织起来表达一个概念,就跟史蒂文· 西格尔(Steven Seagal)喜欢用两个词为他的电影命名一样。大数据是“宽
  带”、“线”、“社交媒体”或“网站”这类新概念的后裔。它表示海量的数据,仅此而已。
  隶属于被誉为“传奇”的麦肯锡管理咨询公司的麦肯锡全球研究院谈起“大数据”时说道:“这个概念指的是那些规模巨大到通常的数据处理软件都法捕捉、存储、管理和分析的数据集。”根据2011 年其发表的第一份“大数据”报告,这些研究者所认为的“大”是指每家企业所拥有的数据达到几十个乃至上千太字节(Terabyte)。
  我们对“大数据”的理解要比工业标准更全面。我们之所以关心这个问题,不是因为数据越来越多,而是因为对数据的分析越来越多了。我们不得不投入更多的人手以便能更多、更快地分析数据。真正驱动我们这样做的不是数据的数量而是数据的价值。如果我们想深入研究失业、通货膨胀或者其他经济指标,我们可以从美国劳工统计局(the Bureau of Labor Statistics)的网站上下载大量的数据集。如果某位纽约居民对某饭店的“B”健康等级感兴趣,他就可以在纽约市的健康与心理卫生部(Department of Health and Mental Hygiene)的在线数据库中,查阅违规饭店名单。几年前,当丰田汽车被接连曝出存在突然加速的隐患时,我们了解到美国国家公路交通安全管理局(National Highway Traffic Safety Administration)设立了一个开放资源中心,用来存储关于驾驶员安全方面的投诉。自1990 年代初,任何人都可以从雅虎财经、亿创理财(E*Trade)等网站上,下载到股票、共同基金以及其他金融产品的运作情况。有时,甚至连公司也会参与其中,使得一些专有的数据公开化。2006 年,美国最大的在线DVD 租赁商奈飞公司(Netflix)统计并发布了1 亿部电影的分类等级,并征募科学家来改进预测算法。玩家们通过研究统计数字来获得竞争优势,从而将“梦幻体育”(Fantasy Sports)这个游戏推到了一个新的高度。那些过去印刷在纸版书的数据,如今以电子表格的形式在互联网上迅速传播。数据是免费的,又很容易获得,这必然会产生更多的数据分析。
  比尔· 盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学中途退学,创办自己的软件公司。而且他们公司开发的软件,最终用在了世界90% 的电脑上,比尔也因此赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔& 梅琳达· 盖茨基金会”(Bill & Melinda Gates Foundation)。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防,在美国进行中学改革,以及对艾滋病(HIV/AIDS)的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。
  但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A 是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50 所学校中,12% 是小型学校。要是学生的成绩跟学校的规模关,那么规模大的学校在这50 所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100 名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。
  举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(Mountlake Terrace High School)读书的1 800 名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆· 范德· 阿尔克(Tom Vander Ark)解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”
  十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,在某些个例中变得更差了。
  统计学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心(Educational Testing Services)度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50 所学校中占了12% 的份额,但同时要看到,在后50 所学校中,有18% 是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析。
  盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30% 能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被推翻了。不过,话又说回来,我还是希望专家能发表一些质量稍高的分析报告。
  大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松
  平常。
  大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!
  大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。
  数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力跟商业思维。有些人可能在编程方面人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。
  我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中,有人提出了一些观点,并且援引数据来证明自己的观点。我通过提一些尖锐的问题,检查一致性,数理论证,有时候,也会通过获取并分析相关数据,来展示我是如何验证这些观点的。比如,我会质疑高朋(Groupon)的商业模型有意义吗?一种检测肥胖的新方法能解决我们最大的健康危机吗?克莱蒙德麦肯那学院(Claremont McKenna College)在学院排名游戏中小规模作弊了吗?政府公布的通胀跟失业数据值得信任吗?我们如何评价梦幻体育联盟的表现?当商家通过追踪我们的活动来实现个性化营销时,我们会从中受益吗?
  即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误,那么责任完全在我。要是我没有把观点讲得足够清楚,那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践,才能培养出你自己的数字直觉。
  欢迎来到大数据时代,不过,要处处留神才是!
  ……
展开
目录
第一部分
关于社会大数据的解读
第1章法学院院长互发垃圾邮件为哪般
当一天招生办主任
伪造、精挑细选和换牌游戏
正在消失的行为、不限量、学校之间的联系以及部分得分
制造工作数据
问卷生存游戏、秘密协议、有提示的记忆
牵连共犯
法学院逃过经济衰退一劫
塞克斯顿主义
济于事
第2章新的统计数据真的能让我们瘦下来吗
减肥餐的致命弱点
身高体重指数
被误用的测量
需要解决的难题
真正的难题在哪里
维持新体重的最后一搏

第二部分
关于营销大数据的解读
第3章脱销是如何毁掉一家企业的
盈利与亏损的分界线
网络营销真的那么管用吗
第4章个性化销售真的能挽救高朋吗
通过电子邮件检索
失败的乐趣
当米兰达遇见帕特里克
高朋的目标客户到底在哪里
高朋模式需要更多的新客户
高朋的定位
成长的阵痛
第5章营销人员为何给你发混合型的推销信息
超特大号(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
传递混合信息的科学性
大数据是救世主吗

第三部分
关于经济大数据的解读
第6章要是没人能够申请,这还算新工作吗
找借口
是否需要进行季度性调整
这条鱼变质了
华盛顿过去的那些漂亮的统计数据
克鲁德尔称之为“哎呦”
第7章你买鸡蛋花了多少钱
有些你看见了,有些你没看见
对被平均化的不满
谁的核心
钻啊,孩子,钻啊
对平均数的惧怕

第四部分
关于体育大数据的解读
第8章你是好教练还是好经理
邀请统计学家进入你家厨房
生活在梦幻游戏之外
首先看一下教练
再看一下教练能力
杰伊为何要忽略自己的建议
被总经理所禁锢命运
接下来在家里会发生什么
后记在大数据时代生存下去
[美其名曰]大数据科学家生活中的三个小时
三天与6000个词的较量
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证