搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
重构大数据统计
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121225000
  • 作      者:
    杨旭著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2014
收藏
编辑推荐
    大型互联网公司一线大数据分析实践!
《重构大数据统计》提出了一套适合于分布式计算的统计计算方法 ,梳理出一套对大数据分析有实用价值的统计理论,并形成参考代码,对于从事大数据分析的工程师而言,这些内容有相当的参考价值。
《重构大数据统计》是作者在一线工作中的实践总结。在研发的过程中,作者遇到了资源优化(成本)以及计算时间优化(性能)的问题,通过反复的实践和论证,总结出一套行之有效的理论和方法。在此方法指导下开发的数据分析工具,已经被阿里巴巴集团内部所使用,并取得了显著的效果。
开卷有益,《重构大数据统计》给您带来实用的解决思路,在此启发下,相信您也能摸索出适合自己实际情况的大数据分析之道,大大地提升数据分析效率。
展开
作者简介
杨旭,2004年获南开大学数学博士学位,之后在南开大学信息学院从事博士后研究工作。2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。
展开
内容介绍
基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
展开
精彩书评
    在大数据时代,数理统计是研究和挖掘数据价值的不可或缺的工具。尽管数理统计学科中有大量的理论研究成果,但如何将这些经典成果应用到大数据挖掘问题中,则还是近几年的事情。本书立足于将数理统计基础知识应用到大数据计算上,通过理论介绍和算法程序相结合的描述方法,把复杂的计算问题转变为相对简单、高效的计算过程。
本书提出了一套适合于分布式计算的统计计算方法,通过对一些基础统计量的计算,可获得有关数据集更全面的统计信息,进而可以进行高级的统计分析,例如,区间估计、线性回归、主成分分析等。可以这样说,本书从统计计算的角度,梳理出一套对大数据分析有实用价值的统计理论,并形成参考代码。
对于非数学背景,甚至非数理统计专业背景的读者来说,本书中所涉及的理论基础可能会比较陌生,特别是后半部分章节中提到的一些定理和推演过程。以我自己阅读为例,本书前半部分阅读起来比较愉悦和轻松,后半部分有些章节着实“不明觉厉”了。对于大数据分析的工程师或者分析师而言,本书的内容极其有参考价值,可以让你在先验统计知识的基础上,获得更多的统计信息,甚至捕捉到数据集内在的规律。
我也相信,大多数读者并不具备数理统计专业的基础,但这不会成为阅读本书和使用高级统计量的障碍。相反,阅读本书会开阔大数据分析的思路,学习统计分析的理论基础,并快速找到大数据统计分析的正确方法。建议每一位正在从事大数据分析的工程师都读一读这本书。
本书作者杨旭曾经获得了南开大学数理统计专业的博士学位,并先后在微软亚洲研究院和阿里巴巴从事高性能计算和大数据计算方面的工作。两年前,他曾经向我提到,他计划将工作中积累的算法经验写成一本书,到了2014 年1 月,他告诉我书稿已经完成,询问我能否作序或写推荐。我粗略看了一下目录,认为对于大数据计算非常有价值,也正好有兴趣学习这方面的知识,所以答应春节假期阅读完书稿后再做决定。
是以作序推荐。
潘爱民
阿里云OS 首席架构师
相信大多数从事数值计算的技术人员都读过一系列叫作Numerical Recipe in C/Fortran/Java的书。眼前这本《重构大数据统计》或许可以叫作Numerical Statistics Recipes in Java,和那个系列一样,对于重新快速学习和使用数值统计算法来实现数据分析应用的读者来说,这本书是一本不错的入门手册。
数理统计和多变量统计分析的数值算法存在已久,并不是新的Rocket Science。无论冠以数据分析还是大数据分析之名,本书所涵盖的统计量和统计方法的知识都是数据分析人员必须具备的基本功。大数据分析是一门应用科学,根本原因在于互联网和计算技术,硬件技术的发展使得海量数据的产生和实时持续处理成为可能,这样由海量数据驱动的数据挖掘、机器学习等基于传统的统计数据分析方法真正成为基于理论建模、实验和数值模拟之外新的范式。认识到这一点就会对大数据持平常心,学习的核心就在于如何掌握数理统计和多变量分析在大数据应用框架下的实现和性能优化。本书简明扼要地介绍了常用的数理统计算法,重点介绍了数值算法的实现。
囿于篇幅,本书未能介绍每一种统计量和统计方法在实际的大数据分析场景中的可能应用,我们期待作者后续能完善这方面的研究,将本书的下一版内容提升到应用指南的层面。
何万青博士
英特尔技术计算集团技术计算架构师
展开
目录
第1章基本概念 1
1.1 数据类型 1
1.2 总体和样本 2
1.3 参数和统计量 2
1.4 分布式计算 3
第2章单变量基本统计量 5
2.1 数量统计量 5
2.1.1 样本方差为何除以n-1 7
2.1.2 数据分布与标准差的关系 10
2.1.3 新的计算公式 11
2.1.4 代码实现 16
2.2 频数统计量 18
2.3 次序统计量 23
2.3.1 通过排序方法计算次序统计量 25
2.3.2 不需排序就可计算的次序统计量 29
2.3.3 基于频数信息计算次序统计量 31
2.3.4 中位数、众数和均值的关系 34
第3章单变量数据的分布 36
3.1 直方图 36
3.1.1 直方图的计算 39
3.1.2 算法实现 42
3.1.3 已知数据频数的情况下求直方图 49
3.1.4 日期类型直方图 49
3.2 经验分布 57
3.3 近似分位数和近似百分位数 61
3.4 PP、QQ概率图 65
3.5 单变量的基本统计信息 69
第4章多变量的数据特征 77
4.1 协方差 77
4.2 相关系数 79
4.3 协方差和相关系数的计算实现 80
4.4 数据表的基本统计结果 84
第5章数据探索 88
5.1 扩展直方图 88
5.1.1 计算方法 90
5.1.2 代码实现 91
5.2 交叉表 110
第6章极限定理 116
6.1 大数定理 116
6.2 中心极限定理 117
第7章常用的分布函数介绍 123
7.1 基本定义 123
7.2 标准正态分布(Z分布或U分布) 124
7.3 卡方分布(χ^2分布) 129
7.4 学生T分布 133
7.5 F分布 139
第8章常用分布函数计算 145
8.1 函数定义 145
8.2 函数性质及相互间的关系 147
8.3 分布函数关系图 164
8.4 分布函数的计算 166
8.4.1 计算Γ(x) 166
8.4.2 计算CDF_Γ 170
8.4.3 计算CDF_Β 173
8.4.4 计算IDF_Γ和CDF_Β 176
8.4.5 其他函数的计算 178
8.5 生成常用分布的随机数 180
第9章参数估计 187
9.1 点估计与区间估计 187
9.2 单个总体的参数估计 190
9.2.1 不同情况的参数估计表达式 190
9.2.2 单个总体参数估计的实现 191
9.3 两个总体的参数估计 196
9.3.1 不同情况的参数估计表达式 196
9.3.2 两个总体参数估计的实现 199
第10章假设检验 207
10.1 基本概念 207
10.2 参数检验 209
10.3 单个总体参数的检验 212
10.3.1 各种情况下的检验方法 212
10.3.2 单个总体参数检验方法的实现 214
10.3.3 不同检验方法的选择 223
10.4 两个总体参数的检验 227
10.4.1 各种情况下的检验方法 227
10.4.2 两个总体参数检验方法的实现 231
10.4.3 不同检验方法的选择 237
第11章非参数检验 244
11.1 Pearson拟合优度χ^2检验 245
11.2 两个变量的列联表检验 248
11.3 K-S检验 250
11.3.1 单样本K-S检验 251
11.3.2 双样本K-S检验 256
11.4 符号检验 258
11.5 秩统计量和秩检验方法 260
11.5.1 Wilcoxon秩和检验 260
11.5.2 Wilcoxon符号秩和检验 266
11.5.3 Kruskal-Wallis检验 268
11.5.4 Friedman检验 273
第12章方差分析 277
12.1 单因素方差分析 278
12.1.1 计算流程 278
12.1.2 代码实现 280
12.1.3 方差分析与T检验的关系 283
12.1.4 方差分析中的多重比较方法 285
12.2 双因素方差分析 289
12.2.1 无交互作用的双因素方差分析 289
12.2.2 有交互作用的双因素方差分析 295
第13章多元线性回归 302
13.1 数学模型 302
13.2 显著性检验 308
13.3 计算步骤 309
13.4 代码实现 313
13.5 多重共线性 320
13.5.1 度量指标 320
13.5.2 代码实现 323
13.5.3 应用示例 328
13.6 逐步回归 330
第14章主成分分析 340
14.1 计算步骤 342
14.2 代码实现 345
14.3 应用举例 350
第15章判别分析 359
15.1 距离判别 359
15.1.1 Mahalanobis距离 360
15.1.2 模型训练和预测 361
15.2 Fisher判别 364
15.3 Bayes判别 369
15.3.1 朴素Bayes判别 369
15.3.2 模型训练和预测 370
15.4 判别算法的综合模型 377
15.5 应用举例 378
第16章模型评估曲线 383
16.1 相关概念 383
16.2 定义 384
16.2.1 ROC曲线 384
16.2.2 上升图和反馈率―精确率线 386
16.3 计算实现 386
参考文献 391
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证