搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
深入浅出R语言数据分析/新时代·技术新未来
0.00     定价 ¥ 69.00
图书来源: 浙江图书馆(由JD配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302543886
  • 作      者:
    米霖
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2020-09-01
收藏
编辑推荐

8年实战经验,带你搞定R语言数据分析,有理论,有应用,有技巧


系统:从数据读取、网络爬虫,到数据分析方法,应有尽有 

全面:介绍了最常用的12种数据分析方法

实战:针对每种方法,都给出了实现代码,拿来就用

图解:提供了59张数据分析图,方便读者学习


免费提供配套学习视频+源程序下载


展开
作者简介

  米霖,毕业于华中农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括“Shiny初级教程”“R包开发”“H20机器学习模型”“信用评分模型开发”“R语言文本挖掘”等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本)、信贷中的信用评分项目、电商风控项目等。

展开
内容介绍

  《深入浅出R语言数据分析/新时代·技术新未来》首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。该书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。
  全书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的两个延伸内容:H2O机器学习和R语言爬虫。
  《深入浅出R语言数据分析/新时代·技术新未来》内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,该书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。

展开
精彩书评
  ★大概在四五年前,我还在负责金蝶数据中台的构建工作,那个时候我们觉得R语言肯定不能缺席集团这种技术架构乃至业务架构的变革,于是就促成了跟该书作者的首次合作。估计当时在很多开发人员耳朵里面,R语言可能只是隐约听过,一个原因是市面上相关的书籍太少,另一个原因是R语言的应用当时还局限在统计分析领域,在通用数据分析领域中真正会R语言的人不多。《深入浅出R语言数据分析》这本书的出版,能够帮助相关从业者更加全面和系统性地学习R语言,给R语言的推广应用带来更大的可能性。
  ——胡博,原金蝶集团技术架构委员会主任,易伙科技CEO
  
  ★当初刚认识作者的时候,就很欣赏他对于事物追本溯源的探究精神、好奇心以及归纳能力。统计学是一门非常注重实践的学科,而R语言的学习将能够帮助更多的朋友更有效率地分析业务并找出事物的规律。
  ——薛驰,曾任职于谷歌商业分析部门,禾观科技CEO
  
  ★该书通过大量的实例介绍了R语言在数据分析中的应用和操作,重点讲解了数据分析所需的各种统计模型和机器学习方法,对广大的初学者和从事数据分析工作的人员都大有助益。
  ——朱强,华中农业大学信息学院副教授
展开
目录

第1章 数据分析项目的流程
1.1 数据分析项目中的角色
1.2 数据分析项目的阶段
1.2.1 制定目标
1.2.2 收集数据
1.2.3 数据处理和分析
1.2.4 构建模型
1.2.5 评估模型
1.2.6 展示结果
1.2.7 部署与维护模型
1.3 总结

第2章 数据的读取
2.1 RData数据
2.2 readr高效读取数据
2.3 读取Excel数据
2.4 读取SPSS、SAS、STATA数据
2.5 R语言操作数据库
2.6 总结

第3章 数据探索
3.1 缺失值的识别与处理
3.1.1 缺失值的识别与描述性统计
3.1.2 缺失值的可视化展示
3.1.3 缺失值的处理方法
3.2 异常值
3.3 dlookr数据处理包
3.3.1 所有变量的一般性诊断
3.3.2 数值型变量的诊断
3.3.3 分类变量的诊断
3.3.4 异常值的诊断
3.3.5 创建诊断报告
3.3.6 数据处理
3.3.7 缺失值处理
3.3.8 异常值处理
3.3.9 数据转换
3.3.10 数据分箱
3.3.11 创建数据转换报告
3.4 数据相关性
3.5 自动化创建数据探索报告
3.6 总结

第4章 生存分析
4.1 生存分析的基本内容
4.2 使用R 语言进行生存分析
4.3 非参数模型
4.3.1 使用Kaplan-Meier 方法拟合数据
4.3.2 Kaplan-Meier 方法的可视化
4.4 半参数模型生存分析方法
4.4.1 构建Cox 模型
4.4.2 检查假设
4.4.3 Coxph 模型可视化
4.4.4 预测
4.4.5 分层
4.5 参数模型
4.6 随机生存森林模型
4.7 总结

第5章 主成分分析
5.1 概述
5.1.1 维度相关的问题
5.1.2 检测多重共线性
5.1.3 方差膨胀因子
5.2 主成分分析详解
5.2.1 主成分分析的定义
5.2.2 主成分分析的简单原理
5.2.3 主成分分析的算法
5.3 使用R 语言进行主成分分析
5.3.1 主成分分析的实现
5.3.2 主成分分析案例
5.4 总结

第6章 多维缩放
6.1 MDS 的工作原理
6.3 MDS 的优点
6.2 在R 语言中实现MDS
6.4 总结

第7章 线性回归模型
7.1 线性回归模型概述
7.2 在R 语言中实现回归模型
7.2.1 图形分析
7.2.2 建立线性模型
7.2.3 回归模型的图形诊断
7.2.4 预测模型
7.2.5 抽样方法
7.3 总结

第8章 逻辑回归模型
8.1 逻辑回归的原理
8.2 在R 语言中实现逻辑回归模型
8.2.1 数据探索
8.2.2 构建逻辑回归模型
8.2.3 逻辑回归预测
8.2.4 逻辑回归模型评估
8.3 总结

第9章 聚类模型
9.1 概述
9.1.1 聚类算法
9.1.2 K均值聚类的原理
9.2 在R 语言中实现聚类模型
9.2.1 K均值聚类
9.2.2 层次聚类
9.2.3 Medoids 聚类(PAM)
9.3 总结

第10章 关联规则
10.1 关联规则概述
10.2 关联规则的基本概念
10.3 在R 语言中实现关联规划
10.3.1 训练模型
10.3.2 模型的评估
10.3.3 提升关联规则的效果
10.3.4 关联规则的可视化
10.4 总结

第11章 随机森林
11.1 随机森林的基本概念
11.3 总结
11.2 在R 语言中实现随机森林

第12章 支持向量机
12.1 概述
12.3 总结
12.2 在R语言中实现支持向量机

第13章 神经网络
13.2.2 评估模型效果
13.1 概述
13.2 在R 语言中实现神经网络
13.3 总结
13.2.1 构建神经网络模型

第14章 文本挖掘
14.1 概述
14.2 text2vec 背景及其基本原理
14.3 DTM 与TFIDF 的原理和实现
14.3.1 DTM 和TFIDF 的原理
14.3.2 DTM 的实现
14.3.3 TFIDF 的实现
14.4 情感分析
14.5 LDA 主题模型及其实现
14.6 构建自动问答系统
14.7 总结

第15章 社交网络分析
15.1 社交网络概述
15.2 igraph 简介
15.2.1 准备工作
15.2.2 图的指标计算
15.3 社交网络的常见结构
15.4 社交网络分析算法
15.4.1 Girvan-Newman
15.4.2 基于传播标签的社区检测
15.4.3 基于贪婪优化模块的社区检测
15.4.4 自旋转玻璃社群
15.5 微博社交群体分析
15.5.1 自旋转玻璃社群
15.5.2 社群检测
15.6 总结

第16章 H2O 机器学习
16.1 H2O 机器学习平台
16.2 在R 语言中使用H2O
16.2.1 H2O 的安装
16.2.2 案例应用
16.2.3 H2O 常用API
16.2.4 模型的通用参数
16.2.5 参数调整
16.3 H2O Flow
16.3.1 H2O Flow 的安装
16.3.2 H2O Flow 的基本使用方法
16.4 总结

第17章 R语言爬虫
17.1 快速爬取网页数据
17.2 rvest 简介
17.2.1 rvest API
17.2.2 rvest API 详解
17.3 爬取BOSS 直聘数据
17.4 模拟登录

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证