搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大数据分析的道与术
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121283512
  • 作      者:
    毕然编著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2016
收藏
编辑推荐

本书用轻松话语讲述一线数据分析技术,既有统计方法与分析技巧,更有奇闻趣事和哲学感悟,为你的数据分析之路指点迷津。

展开
作者简介

毕然,百度资深数据技术专家,在检索系统、在线广告、商业营销等领域有丰富的大数据分析和建模经验。曾获得首届百度百万美金*高奖,并多次获得技术创新奖。专注于理论与实践的结合,涉猎大数据技术、经济与商业机制、营销心理学、互联网产品几个方面,深究其根源并擅长跨界思考。乐于分享,是百度技术学院的明星讲师,创设和主讲有《大数据分析的道与术》、《经济学与互联网商业产品设计》和《机器学习的设计故事》等课程。 

展开
内容介绍

我们能相信统计么? 抛了5次硬币,结果都是正面,抛硬币是否肯定是正面?如何从高层的统计指标看透数据后面的本质?如何在大数据时代获取战略制高点,确定自己的职业发展定位?从一个互联网公司数据分析师的成长经历,为您娓娓道来,数据分析中的奇闻趣事、心得总结、方法技巧与哲学感悟。

展开
精彩书摘

当心!“数据”一样会说谎!


例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子款,25%选裤子款。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高?


根据之前讲座交流的经验,对于第一次阅读这份数据的朋友,大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来,大家的结论会不会有变化呢?

例2的完整数据:艺术学校有女生900人,男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1,而看到一个穿裤子女生的概率为90% × 25% = 0.225,所以远远看到一个穿裤子的同学,他更有可能是女生!

例2只公布了似然概率,却隐藏了先验概率信息,使人的判断发生迷惑。什么是似然概率和先验概率呢?这涉及到统计学中的贝叶斯公式,描述一件事物发生的概率与两个概率相关,先验概率和似然概率。

数学表示:P(h1 | D) ∝ P(h) × P(D | h)

假设h代表我们对某个事物的判断,如果有两个判断(如某同学是男或是女),可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后,判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下,观测到数据D的概率。那么,贝叶斯定理说明了“观测到数据D,判断假设h为真的概率”,与“假设h天然出现的概率(P(h),称为先验概率)”和“假设h为真的情况下,观测到数据D的概率(P(D|h),称为似然概率)”成正比。

其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D),因为对于不同的假设h,数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用,通常可以忽略。

回到艺术学校的例子,观测数据D =看到该同学穿的是裤子,假设 h1=他是男生,假设h2=她是女生。

因为艺术学校男生有100人、女生有900人,所以先验概率 P(h1) =10%、P(h2)=90%。

因为男生 100%会选择裤子,女生 25%会选择裤子,所以似然概率P(D | h1) =100%、P(D | h2) =25%。

那么,校园中随意看到了一位穿裤子的同学,

他是男生的概率近似:P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1

她是女生的概率近似:P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225

可见女生的概率要比是男生的概率高1倍多,这位穿裤子的同学更可能是女生! 

注释:上述计算亦可以加上P(D)的考量,会得到精确的概率结果。女生有225人穿裤子,男生100人穿裤子,校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D),得到他是男生的概率为30.8%,她是女生的概率为69.2%,之间的差距比例是一致的(0.1/0.225 = 30.8%/69.2%),所以通常可以省去计算P(D)。

从这两个例子可见,隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论。在某些场景下,更细节的相关信息是不能忽略的,隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。


展开
目录

第一篇  道 1
第1章  大数据分析之道 2
1.1  做好数据分析的关键 3
1.2  业务调研 10
1.3  创新思考 14
1.4  逻辑推理 25
1.5  可行建议 48
1.6  补充阅读:数据分析报告的撰写要点 51
第二篇  术 63
第2章  统计是怎么发明的? 64
2.1  重启思维模式 65
2.2  统计的意义及指标 71
2.3  统计图形是如何设计的? 102
第3章  我们能相信统计吗? 115
3.1  统计可信吗? 116
3.2  基于概率的信任 120
3.3  如何实现基于概率的信任? 126
3.4  应用理念:细致与置信的权衡之道 140
3.5  评估:正确的认识世界 144
3.6  设计统计方案中的方法论 156
第4章  统计分析方法 159
4.1  拆指标-1 分布分析 161
4.2  拆指标-2 趋势分析 165
4.3  拆指标-3 因素分析 177
4.4  拆数据-1 个案分析 186
4.5  拆数据-2 异常分析 188
4.6  拆数据-3 分组分析 193
4.7  附加阅读:消费者偏好和企业差异化战略 197
4.8  不同分析方法的结合与创新 209
4.9  与领域相关的分析方法 213
第5章  数据分析的高级工具:OLAP与机器学习 220
5.1  OLAP技术 221
5.2  无监督学习模型 225
5.3  监督学习模型 234
第三篇  释 287
第6章  大数据时代 288
6.1  大数据的价值 289
6.2  企业如何向数据技术转型? 301
6.3  数据技术的职业发展 315
第7章  数据技术团队组建和发展 331
7.1  自我修炼与领导团队 332
7.2  数据技术团队的组织结构 334
7.3  数据技术团队发展中的优劣势 336

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证