搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
R统计应用开发实战
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787111493471
  • 作      者:
    (印)Prabhanjan Narayanachar Tattar著
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2015
收藏
编辑推荐
  
  系统讲解R应用开发的统计学基础,并针对不同问题给出具体的R实现代码
  《R统计应用开发实战》详细讲解统计学基本概念和R软件操作,几乎每个概念后面都有R软件实现的代码,以此说明R软件的优势和应用的多样性。
  《R统计应用开发实战》从一开始简单讨论数据类型,到最后探讨当前先进的统计模型CART,每一步都包含有用的数据和R代码作为示例。对于读者而言,本书不仅仅是简单的描述性数据总结,而是一次从探索性分析开始,历经线性回归建模,最后以logistic回归和CART结束的旅程。
  通过阅读本书,你将学到:
  实现不同数据类型的有效可视化
  完成探索性数据分析:树立正确的态度,实现有效的推理
  结合经典推断理论和现代的计算能力学习统计推断
  深入探究回归模型,如连续型与离散型的线性回归和logistic回归
  介绍CART——一种有效处理非线性问题的学习工具
展开
作者简介

  Prabhanjan Narayanachar Tattar,现就职于戴尔全球分析公司的客户服务分析部,担任班加罗尔大学的戴尔公司商业分析顾问。他有多年的R软件使用经验,并曾研发过gpk和ACSWR两个软件包,出版了《A Course in Statistics with R》。他还曾在IBS-GK Shukla青年生物统计学家奖(2005年)和Dr. U.S. Nair奖的评选中均获得青年统计学家的荣誉称号。


  程豪,中国人民大学统计学博士在读,主要研究方向为机器学习、数据挖掘、统计预测、社会网络及结构方程模型。他担任了10多个课题的主要负责人和研究员,合作发表论文6篇,并在“海峡两岸CATI与数据挖掘合作20周年暨第十届中国数据挖掘与商业智能研讨会”中做报告。2014年获得“汇丰杯”中国高校SAS数据分析大赛冠军。除本书外,还曾参与翻译《R语言编程艺术》。

展开
内容介绍

  R是一套完整的数据处理、计算和制图的开源软件系统。本书用通俗易懂的语言对R在机器学习、数据挖掘等领域的应用进行深入浅出的讲解,细致地展示实现不同问题的R程序和运行结果,为广大读者快速学习和掌握R语言提供指导。

  《R统计应用开发实战》共10章,第1~5章介绍R软件和统计的基本知识,第6~10章详细讨论应用和现代回归树模型。第1章介绍数据特征,用R展示不同类型的变量和数据分类;第2章详细讲解如何用R实现数据的导入和导出;第3章分别对分类型和数值型数据讨论R的可视化问题;第4章研究探索性分析,展示用R实现对数据作初步分析的一些直观的技术和方法;第5章从似然函数和极大似然估计问题开始,通过R编程,选择一些具体的函数研究参数的置信区间,同时对重要统计量进行了比较均值的Z-检验和t-检验以及比较方差的F检验;第6章是线性回归分析的R实现问题,对因变量和自变量建立线性函数关系;第7章引入一个分类模型——logistic回归模型,并用ROC曲线识别更好的分类模型;第8章介绍标准化的回归模型,探讨过拟合问题并给出示例;第9章提出基于树的回归模型,利用R进行建模,形成分类回归机制;第10章运用R解决分类回归等问题,用装袋法(bagging算法)和随机森林比较分类回归的两处改善。

展开
目录

译者序
前言
第1章 数据特征  1
1.1 问卷调查及其组成部分  1
1.2 在计算机科学中的不确定性研究  5
1.3 R安装  6
1.3.1 使用R包  7
1.3.2 RSADBE——本书的R包  8
1.3.3 离散分布  9
1.3.4 离散均匀分布  10
1.3.5 二项分布  11
1.3.6 超几何分布  13
1.3.7 负二项分布  14
1.3.8 泊松分布  15
1.4 连续分布  16
1.4.1 均匀分布  16
1.4.2 指数分布  17
1.4.3 正态分布  18
1.5 本章小结  20
第2章 数据导入和导出  21
2.1 data.frame和其他格式数据  21
2.1.1 常数、向量和矩阵  21
2.1.2 列表对象  28
2.1.3 data.frame对象  30
2.1.4 表对象  33
2.2 函数read.csv、read.xls以及外来程序包  35
2.3 导出数据/图表  41
2.3.1 导出R对象  41
2.3.2 导出图表  41
2.4 管理一个R会话  43
2.5 本章小结  45
第3章 数据可视化  46
3.1 分类数据的可视化技术  47
3.1.1 条形图  47
3.1.2 点图  52
3.1.3 脊柱图、马赛克图  54
3.1.4 饼图和四折图  58
3.2 连续型变量数据的可视化  59
3.2.1 箱线图  60
3.2.2 直方图  62
3.2.3 散点图  66
3.2.4 帕累托图  70
3.3 ggplot概述  71
3.4 本章小结  73
第4章 探索性分析  75
4.1 基本汇总统计量  75
4.1.1 百分位数、四分位数和中位数  76
4.1.2 折页数  76
4.1.3 四分位极差  77
4.2 茎叶图  80
4.3 字母值  83
4.4 数据变换  84
4.5 袋状图:二元箱线图  86
4.6 耐抗线  88
4.7 平滑数据  90
4.8 中位数平滑  93
4.9 本章小结  95
第5章 统计推断  97
5.1 极大似然估计  98
5.1.1 可视化似然函数  98
5.1.2 寻找极大似然估计  101
5.1.3 使用fitdistr函数  103
5.2 置信区间  105
5.3 假设检验  108
5.3.1 二项式检验  109
5.3.2 比例检验和卡方检验  111
5.3.3 基于正态分布检验:单样本  113
5.3.4 基于正态分布检验:两样本  118
5.4 本章小结  121
第6章 线性回归分析  122
6.1 简单线性回归模型  123
6.1.1 随意选择参数会发生什么  123
6.1.2 建立一个简单线性回归模型  126
6.1.3 ANOVA及置信区间  128
6.1.4 模型验证  129
6.2 多元线性回归模型  133
6.2.1 平均K个简单线性回归模型或建立一个多元回归模型  134
6.2.2 建立一个多元线性回归模型  136
6.2.3 多元线性回归模型的ANOVA和置信区间  137
6.2.4 有用的残差图  139
6.3 回归诊断  141
6.3.1 杠杆点  142
6.3.2 影响点  142
6.3.3 DFFITS 和DFBETAS  143
6.4 多重共线性问题  143
6.5 选择模型  145
6.5.1 逐步选择  145
6.5.2 基于准则的方法       146
6.6 本章小结  150
第7章 logistic回归模型  151
7.1 二元回归问题  151
7.2 probit回归模型  153
7.3 logistic 回归模型  155
7.4 模型验证和诊断  160
7.4.1 广义线性模型的残差图  160
7.4.2 广义线性模型的影响点和控制点  163
7.5 接收操作曲线  166
7.6 德国的信用甄别数据集的logistic回归  168
7.7 本章小结  171
第8章 正规化回归模型  172
8.1 过度拟合问题  172
8.2 回归样条  176
8.2.1 基函数  176
8.2.2 分段线性回归模型  176
8.2.3 自然三次样条函数和一般的B样条曲线  179
8.3 线性模型的岭回归  183
8.4  logistic回归模型的岭回归  187
8.5 再看模型评估  188
8.6 本章小结  193
第9章 分类与回归树  194
9.1 递归划分法  194
9.1.1 划分数据  196
9.1.2 第一个树  197
9.2 构造回归树  200
9.3 构造分类树  209
9.4 德国信用数据集的分类树  215
9.5 树的修剪和完善  218
9.6 本章小结  220
第10章 分类与回归树及其他  222
10.1 分类与回归树的改进  222
10.2 Bagging  225
10.2.1 bootstrap算法  225
10.2.2 bagging算法  227
10.3 随机森林  230
10.4 整合  233
10.5 本章小结  238
参考文献  239

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证