学习统计学及数据分析的艺术与实践的最好方式,就是进行数据分析
本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式
本书适合数据分析初学者,也适合有经验的数据分析人员
第1章 l 入门指南 001
概述 001
R、RStudio 和R Markdown 002
对象与函数 004
RStudio 入门 006
RStudio 的R Markdown 导览 012
R Markdown 文件与R 脚本 017
小练习 019
第2章 l 数据分析导论 027
概述 027
数据分析的动机 028
大数据越来越大 028
数据分析是一项有市场需求的技能 029
数据分析是一种公益 030
数据分析的构成要素 031
描述数据并形成假设 033
假设一:民族语言碎片化 034
假设二:女性选举权 040
假设三:人力资本 046
假设四:政治稳定 048
模型的构建与估计 052
诊断 054
结果的稳定性 054
残差图 056
提出下一个问题 059
第3章 l 描述数据 064
概述 064
数据集和变量 066
不同类型的变量 068
连续变量 069
分类变量 069
有序分类变量 070
描述数据可以节省时间和精力 073
数据的形状 073
数据的极差 077
辨识困惑、问题、假设和线索 079
困惑和问题:重要的区别 079
描述数据以改进问题 081
描述数据披露了更多线索 084
度量 086
有效性 086
可靠性 088
第4章 l 集中趋势和离散程度 093
概述 093
集中趋势的度量:众数、平均数和中位数 094
众数 095
平均数 096
中位数 100
平均数与中位数 103
离散程度的度量:极差、四分位距和标准差 106
极差 107
四分位距 109
标准差 110
四分位距与标准差 116
关于方差的说明 117
第5章 l 数据的单变量和双变量描述 123
概述 123
好的、差的和离群值 124
单变量数据的5 种视图 125
频率表 126
条形图 127
箱线图(或盒须图) 128
直方图 131
茎叶图 135
变量间是否相关 138
散点图 139
箱线图(双变量) 145
马赛克图 145
交叉表 148
气泡图 148
第6章 l 数据变换 157
概述 157
数据变换的理论原因 158
变换数据确保符合理论 158
数据和问题都要变换以相互匹配 159
数据变换的实际原因 160
数据变换——从连续变量到分类变量 164
数据变换——改变类别 169
Box-Cox 变换 175
第7章 l 数据展示的一些原则 186
概述 186
一些风格要素 187
消除杂乱 188
聚焦 190
整合图文 192
一图应该胜千言 195
了解你的受众 201
了解你的目的:解释性、探索性或信息性 203
故事的基本要素 208
文档(树立讲述者的可信度) 209
建立直觉(设定背景) 211
展示因果关系(旅程) 211
从因果到行动(决议) 213
第8章 l 概率论精要 218
概述 218
总体和样本 219
样本偏差与随机样本 220
大数定律 222
大数定律的可视化 223
中心极限定理 227
平均数的抽样分布随着n 的增加而接近正态分布 228
和的抽样分布是正态的 230
从正态分布中抽取时的观测数量 231
中心极限定理的一个有用性质 232
从不同的分布中抽样 233
标准正态分布 239
标准正态分布与临界z 分数 242
第9章 l 置信区间与假设检验 250
概述 250
大样本的置信区间 251
求总体比例 251
求总体平均数 256
小样本与t- 分布 260
自由度 263
小样本的样本标准差 264
用小样本构建置信区间 269
例子:女性薪酬与男性薪酬 270
比较两个样本的平均数 272
例子:两个群体和两种收入 273
例子:种族和对警察的看法 275
例子:收入和对特朗普的支持 275
置信水平 277
关于统计推断和因果关系的简要说明 280
第10章 l 进行比较 285
概述 285
为什么要进行比较 286
需要比较的问题 287
比较两个分类变量 289
例子:对警察的看法 289
例子:哪些人去教堂 292
比较连续变量和分类变量 294
例子:奥巴马情感量表 294
比较两个连续变量 297
例子:性别与教育 297
例子:性别与政策制定 298
探索性数据分析:调查美国的堕胎率 301
重述要点 303
好的分析引出新的问题 308
第11章 l 受控比较 312
概述 312
什么是受控比较 313
比较两个分类变量,同时控制第三个变量 314
例子:对警察的看法 314
例子:对移民的看法 320
比较两个连续变量,同时控制第三个变量 327
例子:婴儿死亡率 328
例子:凶杀率 331
论点与受控比较 334
第12章 l 线性回归 340
概述 340
线性回归的优点 341
线性回归中的斜率和截距 342
对斜率和截距的解读 343
例子:选民投票率和教育 343
拟合优度(R2 统计量) 348
统计显著性 352
计算t- 比率 353
二元回归的例子 355
一个州的宗教信仰水平是否会影响堕胎率 356
宗教信仰是否会影响枪支法案 358
暴力会导致政治不稳定吗 359
收入(人均 GDP)与投票率有关吗 361
第13章 l 多元回归 368
概述 368
什么是多元回归 369
为什么要使用多元回归 370
回归模型和论点 371
回归模型、理论和证据 372
解读多元回归中的估计值 376
实质显著性 376
统计显著性 377
拟合优度:R2 378
例子:凶杀率与教育 379
理论 379
描述数据 380
估计 384
经验蕴涵 386
讨论 389
第14章 l 虚拟变量和交互作用 394
概述 394
什么是虚拟变量 395
加性模型与交互作用模型 396
二元虚拟变量回归 397
多元回归与虚拟变量 398
多元回归中的交互作用 398
例子:伯尼· 桑德斯,教育和收入 400
例子:外援,人均GDP 和民主 405
第15章 l 诊断1 :普通最小二乘法是否适用 412
概述 412
回归分析中的诊断 413
统计量与估计量的性质 414
高斯- 马尔可夫假设 419
残差图 425
第16章 l 诊断2 :残差、杠杆值与影响力的度量 438
概述 438
离群值 439
杠杆值 442
影响力的度量 448
库克距离 448
dfbeta 449
增加变量图 454
第17章 l 逻辑回归 461
概述 461
需要逻辑回归解决的议题与难题 462
逻辑回归违反了高斯- 马尔可夫假设 463
使用对数发生比 466
使用预测概率 469
二元逻辑回归 469
多元逻辑回归 471
例子:2012 年奥巴马赢得的选举人团 472
逻辑回归模型拟合 475
例子:奥巴马,收入和教育 475
接收者操作特征曲线和曲线下面积 476
附录A l 形成经验蕴涵 488