“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。
从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!
《从零进阶!数据分析的统计基础(第2 版)》共7 章,分别讲解了数据分析的步骤和方法、描述性统计分析、数理统计基础、抽样估计、假设检验、方差分析、相关与回归分析。本书使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面的理论内容,并使用图示的方法详细介绍了使用Excel 2013 进行简单的描述性统计分析和使用SPSS 进行相关的数据分析的过程与结果分析。
《从零进阶!数据分析的统计基础(第2 版)》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理中需要数据分析的人士,从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。
单纯的数据加工方法
这种数据分析方法侧重于数据的加工和预处理,使用的工具一般是SQL 和Excel,这是现在市场上大部分企业所使用的数据分析工具,有的公司干脆就仅使用Excel。该种方法一般是从企业的管理信息数据库系统或数据仓库中,对相关数据进行提取、加工、衍生处理和生成各种业务报表。在我们的经济生活中,经常看到关于同比发展速度、环比发展速度、今年比去年净增加了多少等新闻报道,这些统计数据计算起来比较简单,理论难度很低。这种方法最典型的代表就是描述性统计分析和相关分析。
1.描述性统计分析
描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。通俗地讲,描述性统计就是当数据分析师需要分析一万个数时,他仅需要用八个数就把这一万个数说清楚了,这样进行决策管理时才不用再看一万个数,而只看这八个数就能解决问题。描述性数据分析的关键就是要看明白这八个数,能解释清楚其背后的含义。描述性统计分析分为集中趋势分析、离中趋势分析和数据分布分析三大部分。
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势,例如测试班级的平均成绩是多少。离中趋势分析主要靠全距、四分位距、方差、标准差等统计指标来研究数据的离中趋势。例如,当我们想知道两个教学班的语文成绩哪个班级的成绩分布更分散时,就可以用两个班级的方差来比较。数据分布分析是指和正态分布相比,所得数据的直方图从形态上看是左偏的还是右偏的,从峰度上看是尖峰的还是扁平的,这些内容会在第2 章详细介绍。
2.相关分析
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系一一例如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系一一例如年龄、抑郁症发生率和个人领域空间之间的关系;既可以是A 大B 就大(小),A 小B 就小(大)的直线相关关系,也可以是复杂相关关系;既可以是A、B 变量同时增大的正相关关系,也可以是A 变量增大时B 变量减小的负相关关系,还包括两变量共同变化的紧密程度一一相关系数。
基于数理统计的数据分析方法
数理统计的理论基础比较复杂,也就是概率论和高等数学中的微积分。当然这里的微积分只是简单的一元函数积分,即根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽样推断和假设检验,由此引出方差分析、回归分析、因子分析等基于数理统计的数据分析方法。此种分析方法一般使用SPSS Statistics、SAS EG 等分析工具就可以实现。
1.方差分析
方差分析(Analysis of Variance, ANOVA)又称“变异数分析”、“F 检验”,它是R.A.Fisher 发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于受各种因素的影响,方差分析研究所得的数据呈现波动状。造成波动的因素可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.回归分析
回归分析(Regression)是确定两个或两个以上变量之间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y 对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系,回归分析按照涉及的自变量的数量,可分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。此处所讲的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归。
3.因子分析
因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析的方法有十多种,例如重心法、影像分析法、最大似然解法、最小平方法、阿尔法抽因法、拉奥典型抽因法等。这些方法在本质上大都属于近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会经济统计研究中,因子分析常以主成分分析为基础。
第1 章数据分析概述 1
1.1 什么是数据分析 2
1.2 数据分析六部曲 2
1.2.1 明确分析目的和内容 2
1.2.2 数据收集 . 3
1.2.3 数据预处理 . 3
1.2.4 数据分析 . 4
1.2.5 数据展现 . 5
1.2.6 报告撰写 . 6
1.3 数据分析方法简介 6
1.3.1 单纯的数据加工方法 6
1.3.2 基于数理统计的数据分析方法 7
1.3.3 基于数据挖掘的数据分析方法 8
1.3.4 基于大数据的数据分析方法 11
1.3.5 数理统计与数据挖掘的区别和联系 13
1.4 常用数据分析工具的安装 14
1.4.1 在Excel 2013 中安装数据分析工具 14
1.4.2 数据分析软件SPSS 的安装 . 16
1.5 重要知识点回顾 22
1.6 课后习题 . 23
第2 章描述性统计分析 24
2.1 直方图 . 25
2.1.1 什么是直方图 25
2.1.2 如何看直方图 25
2.1.3 如何画直方图 26
2.1.4 使用Excel 2013 进行直方图的绘制 27
2.2 数据的计量尺度 30
2.3 数据的集中趋势 31
2.3.1 平均数 . 31
2.3.2 分位数 . 33
2.3.3 众数 . 34
2.4 数据的离中趋势 34
2.4.1 极差 . 35
2.4.2 分位距 . 35
2.4.3 平均差 . 36
2.4.4 方差与标准差 37
2.4.5 离散系数 . 38
2.5 数据分布的测定 40
2.5.1 数据偏态及其测定 40
2.5.2 数据峰度及其测定 41
2.5.3 数据偏度和峰度的作用 42
2.6 数据的展示——统计图 43
2.6.1 条形图与扇形图 43
2.6.2 折线图 . 44
2.6.3 茎叶图 . 45
2.6.4 箱线图 . 48
2.6.5 统计图小结 . 52
2.7 使用Excel 实现数据的描述性统计及分析 . 52
2.7.1 使用Excel 实现三国全部人物武力描述性统计 . 52
2.7.2 使用Excel 分别实现三个国家人物武力描述性统计分析 . 54
2.7.3 使用Excel 分别实现三个国家武将武力描述性统计分析 . 55
2.7.4 使用SPSS 实现三个国家武将武力的分位数分析 . 56
2.8 重要知识点回顾 59
2.9 课后习题 . 59
第3 章数理统计基础 62
3.1 抽样估计基础 63
3.1.1 随机事件 . 63
3.1.2 随机事件的概率 64
3.1.3 随机变量及其概率分布 66
3.1.4 随机变量的数字特征 71
3.2 正态分布及三大分布 72
3.2.1 正态分布的概率密度函数 73
3.2.2 正态分布的特征 73
3.2.3 标准正态分布 74
3.2.4 基于正态分布的三大分布 77
3.3 中心极限定理 80
3.3.1 中心极限定理的提法 80
3.3.2 中心极限定理的内容 81
3.3.3 中心极限定理的意义与应用 81
3.4 重要知识点回顾 82
3.5 课后习题 . 83
第4 章抽样估计 . 86
4.1 抽样估计的基本概念 87
4.1.1 总体及总体指标 87
4.1.2 样本及样本指标 88
4.1.3 抽样估计的思想 89
4.1.4 抽样估计的理论基础 91
4.1.5 样本统计量及分布 92
4.2 抽样估计的方法——点估计 93
4.2.1 点估计 . 93
4.2.2 点估计精度和样本容量的关系 95
4.2.3 点估计的优缺点 96
4.3 抽样估计的误差 97
4.3.1 抽样估计的实际误差 97
4.3.2 抽样估计的平均误差 98
4.3.3 抽样估计的极限误差 102
4.4 抽样估计的方法——区间估计 102
4.4.1 抽样估计的精度及置信度 102
4.4.2 区间估计的方法 105
4.4.3 区间估计的步骤 106
4.5 抽样的组织形式和抽样数目的确定 107
4.5.1 抽样的组织形式 107
4.5.2 必要抽样数目的确定 109
4.6 重要知识点回顾 112
4.7 课后习题 113
第5 章假设检验 . 117
5.1 假设检验概述 118
5.1.1 假设检验的概念 118
5.1.2 假设检验的基本思想 118
5.1.3 假设检验在数据分析中的作用 119
5.2 假设检验的分析方法 119
5.2.1 假设检验的基本步骤 119
5.2.2 假设检验与区间估计的联系 122
5.2.3 假设检验中的两类错误 123
5.2.4 利用P 值进行决策 124
5.2.5 应用假设检验需要注意的问题 125
5.3 常见的检验统计量 126
5.3.1 z 检验统计量 126
5.3.2 t 检验统计量 128
5.3.3 ?2 检验统计量 129
5.3.4 F 检验统计量 . 129
5.4 SPSS 中常用的几种t 检验实例 . 130
5.4.1 单样本t 检验 . 130
5.4.2 两独立样本t 检验 . 133
5.4.3 配对样本t 检验 . 139
5.5 重要知识点回顾 143
5.6 课后习题 143
第6 章方差分析 . 147
6.1 方差分析 148
6.1.1 方差分析的概述 148
6.1.2 方差分析的几个概念 148
6.1.3 单因素方差分析中的基本假定 149
6.2 单因素方差分析 149
6.2.1 单因素方差分析的原理 149
6.2.2 单因素方差分析的原假设 150
6.2.3 单因素方差分析的统计量 151
6.2.4 单因素方差分析的基本步骤 152
6.3 使用SPSS 实现三国武将武力差异分析 . 152
6.3.1 检验不同国家武将数据是否符合正态分布 153
6.3.2 单因素方差分析操作步骤及必要说明 155
6.3.3 对三国武将武力单因素方差分析结果的分析 160
6.4 使用SPSS 实现三国文官智力差异分析 . 163
6.4.1 检验不同国家文官数据是否符合正态分布 163
6.4.2 单因素方差分析操作步骤及必要说明 165
6.4.3 对三国文官智力单因素方差分析结果的分析 167
6.5 数说汉室衰微与三足鼎立现象 169
6.6 重要知识点回顾 171
6.7 课后习题 171
第7 章相关与回归分析 175
7.1 变量间的关系 176
7.1.1 函数关系及特点 176
7.1.2 相关关系及特点 176
7.2 相关分析 177
7.2.1 相关分析及步骤 177
7.2.2 散点图的绘制 177
7.2.3 相关系数的计算 178
7.2.4 相关系数的显著性检验 182
7.3 使用SPSS 实现相关分析 . 182
7.3.1 在SPSS 中绘制散点图 . 182
7.3.2 在SPSS 中进行正态性检验 . 185
7.3.3 相关系数的计算和检验 187
7.4 一元线性回归分析 189
7.4.1 一元回归模型及相关假定 190
7.4.2 一元线性回归方程及求法 190
7.4.3 回归模型的检验 191
7.4.4 回归直线的拟合优度 194
7.5 使用SPSS 实现一元线性回归分析 . 195
7.5.1 画散点图和趋势线 195
7.5.2 简单相关分析 198
7.5.3 一元线性回归分析的操作步骤 199
7.5.4 一元线性回归分析的结果解读 205
7.6 重要知识点回顾 207
7.7 课后习题 208
附录A 三国人物数据 . 213
附录B CDA 数据分析师致力于最好的数据分析人才建设 . 226
附录C 参考答案 . 230