搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
基于R语言的数据清洗技术
0.00     定价 ¥ 59.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787509683149
  • 作      者:
    编者:白世贞//魏胜//薛宁|责编:詹静
  • 出 版 社 :
    经济管理出版社
  • 出版日期:
    2022-03-01
收藏
内容介绍
数据分析指的是将数据转化为价值的一个完整过程,而分析数据只是其中的一个环节而已,第一步工作应该是梳理业务目标。人们在进行数据分析的时候,业务目标与分析数据之间还有一个环节的工作——数据清洗。当你辛辛苦苦梳理完业务目标,结果还没有对数据进行必要的清洗工作就去分析,那么分析的结果很有可能是完全错误的。而本书的目标就是带领读者去识别数据中可能存在的问题,并借助R语言这个工具将问题数据清洗干净,这样才会使得后续的分析结果更加真实可信。
展开
目录
1 认识本书的数据集
1.1 引言
1.2 涉及数据清洗的基本函数
1.2.1 进行缺失值判断——is.na函数
1.2.2 进行频次统计——table函数
1.2.3 进行数据定位——which函数
1.2.4 进行数据概览——summary函数
1.2.5 输出选定部分——head函数
1.3 读入数据
1.4 数据的结构与基本信息
1.4.1 该数据集的结构
1.4.2 该数据集的基本信息
1.5 业务目标与数据清洗工作
2 识别与清洗数值型数据中的异常值
2.1 引言
2.2 梳理业务目标
2.3 快速清洗异常数据
2.3.1 快速识别与删除缺失值
2.3.2 快速识别离群值
2.4 清洗离群值
2.4.1 利用经验清洗离群值
2.4.2 利用均值与标准差检测离群值
2.4.3 截去部分离群值
2.4.4 利用四分位差检测离群值
2.5 其他数值数据清洗技术
2.5.1 最大值与最小值
2.5.2 排序
2.5.3 数值变量的分位数
2.5.4 自定义函数:数据截断
2.6 小结
3 利用正则表达式检测字符型数据
3.1 引言
3.2 正则表达式与grep函数
3.2.1 基本语法
3.2.2 grep函数
3.2.3 grep函数检查无效的电视节目信息
3.3 正则表达式与regexpr函数
3.4 小结
4 处理时间与日期类型的数据
4.1 引言
4.2 处理时间型数据
4.2.1 提取时、分、秒数据
4.2.2 识别缺失值
4.2.3 识别异常值
4.2.4 处理异常值
4.2.5 自定义函数判断缺失值
4.3 处理日期型数据
4.3.1 日期的格式
4.3.2 paste函数与非标准格式的日期
4.4 小结
5 重复数据及其异常值
5.1 引言
5.2 消除完全重复的数据
5.3 计算用户ID的重复频次
5.3.1 as.data.frame函数与table函数
5.3.2 利用data.table包生成用户ID重复频次
5.4 连续观看两次的用户
5.5 小结
6 多数据集处理
6.1 引言
6.2 同一ID检查
6.3 数据合并
6.4 数据匹配
6.5 数据集提取与自动保存
6.6 小结
7 用户分析与数据清洗工作
7.1 引言
7.2 异常值识别
7.2.1 识别缺失值与空值
7.2.2 识别与现实经验不相符的异常值
7.3 duration变量清洗与组别划分
7.3.1 删除异常数据与组别划分
7.3.2 修正异常数据与组别划分
7.3.3 分组结果对比
7.4 切换电视频道次数的均值对比
7.5 小结
8 清洗字符型数据
8.1 引言
8.2 利用table函数检测字符变量中的错误
8.3 一些处理字符变量的函数
8.4 检查字符变量的存储格式
8.5 清洗channel变量
8.6 借助KNN算法清洗showname变量
8.7 小结
参考文献
后记
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证