“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。
从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
需要清理的数据类型
缺失值(Missing)
〈1〉缺失值的来源
在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。
〈2〉缺失值的处理方式
?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;
人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;
使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;
单独作为一类。
〈3〉缺失值在SAS 中的表现方式
?数值型的为“.”;
?字符型的缺失值为空。
异常值
〈1〉异常值(Outlier)
异常值也称为离群值、极端值(Extreme)。
明显偏大或偏小的值,异常值不一定为错误值。
〈2〉识别异常值的常用方法有三种:
第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。
第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。
第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。
〈3〉箱线图(Box Plot)
箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.
〈4〉异常值的处理方法
大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析
无效值(Invalid)
在录入时导致的错误,比如性别在录入时F 代表女,M 代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。
数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。
无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。
?数据的重复值(Duplicate)
对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。
第1 章软件入门介绍.. 1
1.1 SAS EG 介绍.. 2
1.1.1 SAS EG 简介. 2
1.1.2 SAS EG 的窗口及菜单. 3
1.2 SPSS 介绍. 4
1.2.1 SPSS 简介.. 4
1.2.2 SPSS 窗口及菜单 5
1.3 数据挖掘的流程介绍. 9
1.3.1 KDD 介绍 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三种数据挖掘流程的比较.. 11
1.4 课后练习. 11
第2 章使用数据.. 12
2.1 通过SAS 逻辑库访问数据.. 13
2.1.1 商业背景.. 13
2.1.2 SAS 相关功能介绍.. 13
2.1.3 EG 菜单解决方案. 14
2.1.4 SAS 程序实现. 15
2.1.5 SPSS 菜单解决方案.. 16
2.2 理解SAS 与SPSS 数据集的定义 19
2.2.1 理解数据集的含义.. 19
2.2.2 商业背景.. 19
2.2.3 SAS 与SPSS 相关概念介绍.. 19
2.2.4 EG 菜单解决方案. 25
2.2.4 SAS 程序实现. 26
2.2.5 SPSS 菜单解决方案 28
2.3 导入其他格式的数据文件 30
2.3.1 商业背景.. 30
2.3.2 SAS 相关功能介绍.. 30
2.3.3 EG 菜单解决方案. 31
2.3.4 SAS 程序实现. 33
2.3.5 SPSS 菜单解决方案 35
2.4 数据来源. 36
2.4.1 直接来源.. 36
2.4.2 间接来源.. 37
2.5 扩展阅读. 37
2.6 课后练习. 38
第3 章探索性数据分析及数据的清理 39
3.1 探索性数据分析. 40
3.1.1 基本理论讲解. 40
3.1.2 EG 菜单解决方案. 40
3.1.3 SPSS 菜单解决方案 44
3.2 数据清理介绍.. 54
3.2.1 商业背景.. 54
3.2.2 需要清理的数据类型. 55
3.3 类别变量的清理. 57
3.3.1 EG 菜单解决方案. 57
3.3.2 SAS 程序实现. 61
3.3.3 SPSS 菜单解决方案 62
3.4 数值型变量的清理 66
3.4.1 EG 菜单解决方案. 66
3.4.2 SAS 程序实现. 70
3.4.3 SPSS 菜单解决方案 71
3.5 正态分布的验证. 75
3.5.1 商业背景.. 75
3.5.2 相关理论介绍. 75
3.5.3 EG 菜单解决方案. 75
3.5.4 SAS 程序实现. 78
3.5.5 SPSS 菜单解决方案 80
3.6 扩展阅读. 83
3.7 课后练习. 84
第4 章数据的行处理. 85
4.1 数据筛选. 86
4.1.1 商业背景.. 86
4.1.2 相关理论介绍. 86
4.1.3 EG 菜单解决方案. 86
4.1.4 SAS 程序实现. 88
4.1.5 SPSS 菜单解决方案 93
4.2 排序与求秩 94
4.2.1 商业背景.. 94
4.2.2 理论介绍.. 95
4.2.3 EG 菜单解决方案. 95
4.2.4 SAS 程序实现.. 101
4.2.5 SPSS 菜单解决方案. 103
4.3 抽样 105
4.3.1 商业背景 105
4.3.2 抽样理论介绍.. 105
4.3.3 EG 菜单解决方案.. 108
4.3.4 SAS 程序实现.. 110
4.3.5 SPSS 菜单解决方案. 111
4.4 数据分组和汇总.. 111
4.4.1 商业背景 111
4.4.2 EG 菜单解决方案.. 111
4.4.3 SAS 程序实现.. 113
4.4.4 SPSS 菜单解决方案. 113
4.5 扩展阅读.. 115
4.6 课后练习.. 115
第5 章数据的列处理.. 116
5.1 计算新变量. 117
5.1.1 商业背景 117
5.1.2 EG 菜单解决方案.. 117
5.1.3 SPSS 菜单解决方案. 120
5.2 拆分列.. 123
5.2.1 商业背景 123
5.2.2 EG 菜单解决方案.. 123
5.2.3 SPSS 菜单解决方案. 125
5.3 堆叠列.. 128
5.3.1 商业背景 128
5.3.2 EG 菜单解决方案.. 129
5.3.3 SPSS 菜单解决方案. 131
5.4 转置列.. 136
5.4.1 商业背景 136
5.4.2 EG 菜单解决方案.. 136
5.4.3 SAS 程序实现.. 138
5.4.4 SPSS 菜单解决方案. 139
5.5 函数及运算符的使用 140
5.5.1 运算符. 140
5.5.2 SAS 函数 142
5.5.3 常用SPSS 函数与SAS 函数的对应关系 150
5.6 对列重编码. 151
5.6.1 商业背景介绍.. 151
5.6.2 EG 菜单解决方案.. 151
5.6.3 SAS 程序实现.. 155
5.6.4 SPSS 菜单解决方案. 157
5.7 标准化.. 158
5.7.1 商业背景 158
5.7.2 相关理论介绍.. 159
5.7.3 EG 菜单实现. 159
5.7.4 SAS 实现程序.. 161
5.7.5 SPSS 菜单解决方案. 162
5.8 扩展阅读.. 163
5.9 课后练习.. 163
第6 章数据集的操作.. 164
6.1 纵向连接.. 165
6.1.1 商业背景 165
6.1.2 相关的理论 165
6.1.3 EG 菜单解决方案.. 165
6.1.4 SAS 程序实现.. 168
6.1.5 SPSS 菜单解决方案. 172
6.2 横向连接.. 174
6.2.1 商业背景 174
6.2.2 相关理论介绍.. 174
6.2.3 EG 菜单解决方案.. 174
6.2.4 SAS 程序实现.. 178
6.2.5 SPSS 菜单解决方案. 182
6.3 数据集的比较 183
6.3.1 商业背景介绍.. 183
6.3.2 相关理论介绍.. 183
6.3.3 EG 菜单解决方案.. 183
6.3.4 SAS 程序实现.. 186
6.3.5 SPSS 菜单解决方案. 187
6.4 创建格式.. 191
6.4.1 商业背景 191
6.4.2 相关理论介绍.. 191
6.4.3 EG 菜单解决方案.. 193
6.4.4 SAS 程序实现.. 196
6.5 删除数据集和格式. 197
6.5.1 EG 菜单解决方案.. 197
6.5.2 SAS 程序实现.. 198
6.6 扩展阅读.. 198
6.7 课后练习.. 199
第7 章数据的展示:图形及报告的编制 200
7.1 数据可视化与图表. 201
7.1.1 商业背景 201
7.1.2 相关理论介绍.. 201
7.1.3 EG 菜单解决方案.. 204
7.1.4 SPSS 菜单解决方案. 207
7.2 创建Listing 报表. 208
7.2.1 商业背景 208
7.2.2 相关理论介绍.. 208
7.2.3 EG 菜单解决方案.. 209
7.2.4 SAS 程序实现.. 212
7.2.5 SPSS 菜单解决方案. 213
7.3 扩展阅读.. 216
7.4 课后练习.. 216
第8 章在SAS EG 中使用提示和条件处理.. 217
8.1 提示与宏变量 218
8.1.1 商业背景 218
8.1.2 相关的理论介绍. 218
8.1.3 EG 菜单解决方案.. 219
8.2 条件处理.. 223
8.2.1 商业背景 223
8.2.2 EG 菜单解决方案.. 223
8.3 扩展阅读.. 227
第9 章在SAS EG 中使用程序.. 228
9.1 如何在SAS EG 中使用程序 229
9.2 SAS 程序 231
9.2.1 SAS 语言元素.. 231
9.2.2 DATA 步. 232
9.2.3 PROC 步. 233
9.2.4 SAS 的模块介绍(图9-9). 234
9.3 扩展阅读.. 234
第10 章SQL 语言基础与MySQL 入门. 235
10.1 SQL 语言概况与MySQL 的安装 236
10.1.1 SQL 语言概况 236
10.1.2 MySQL 安装.. 237
10.1.3 MySQL 内创建数据库. 238
10.2 查询语句 238
10.2.1 简单查询并对数据过滤与排序.. 240
10.2.2 用表达式创建新列. 241
10.2.3 对列重编码. 242
10.2.4 在查询中对数据分组和汇总 243
10.2.5 表的横向连接和子查询.. 244
10.2.6 子查询.. 250
10.2.7 集合操作语句 251
10.3 创建表或视图. 252
10.3.1 创建表.. 252
10.3.2 创建视图. 252
附录A SAS EG 菜单对应关系 254
附录B SPSS 菜单对应关系表 256
附录C SAS 和SPSS 关键术语、命令对应关系 258
附录D CDA 数据分析师致力于最好的数据分析人才建设. 261
参考文献 265