搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据科学基础(基于R与Python的实现)/基于Python的数据分析丛书
0.00     定价 ¥ 59.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787300334660
  • 作      者:
    编者:吴喜之//张敏|责编:王美玲//陈怡梅
  • 出 版 社 :
    中国人民大学出版社
  • 出版日期:
    2025-01-01
收藏
畅销推荐
内容介绍
数据科学是在动态世界中不断发展变化的。本书旨在让读者掌握数据科学基础知识与技能,尽快进入理论与实践,奠定进一步发展的基础。 本书精选了5章内容。第1章为数据初等描述;第2章介绍传统统计基本思维方式,可作为参考;第3章系统深入地介绍有监督学习基础,包括回归及分类概念方法,重点介绍决策树;第4章介绍机器学习组合算法及模型;第5章详细介绍神经网络的基本概念。内容聚焦于决策树、神经网络等既基础又具扩展功能的方法,未罗列扩展性不强的方法。 本书支持R和Python两种编程语言,R代码穿插于正文,Python代码及说明性R代码附于每章之后。建议读者在学习数据科学的过程中通过处理数据自学编程,培养自己的编程能力。 本书与教学契合度高,无论经验丰富的教师,还是没有机器学习和数理统计教学经验的教师,都能轻松上手。其独特的数据驱动教学方式,能够极大地激发学生的学习兴趣,促使学生快速吸收知识,提升学习效果。
展开
目录
第1章 体现真实世界的数据
1.1 数据:对真实世界的记录
1.1.1 数据和变量
1.1.2 变量的类型
1.1.3 数据中的信息量
1.1.4 总体和样本
1.1.5 矩形数据例子
1.2 变量的逐个描述
1.2.1 数量变量的分位数与盒形图
1.2.2 连续型变量的直方图(密度图)
1.2.3 分类(离散)变量的计数及条形图
1.3 变量关系的描述
1.3.1 离散型变量之间关系的描述
1.3.2 连续型数量变量和其他变量之间关系的描述
1.3.3 成对图
1.4 数据的简单描述可能很肤浅甚至误导
1.4.1 自变量对因变量单独影响的盒形图与密度估计图的对比
1.4.2 可能被忽视的组合影响
1.5 习题
1.6 附录:正文中没有的R代码
1.7 附录:本章的Python代码
1.7.1 1.2节的Python代码
1.7.2 1.3节的Python代码
1.7.3 1.4节的Python代码
第2章 传统统计:参数推断简介
2.1 关于总体均值“的推断t
2.1.1 经典统计推断必须有的假定
2.1.2 经典统计的显著性检验
2.1.3 经典统计总体均值“的置信区间
2.1.4 贝叶斯统计的一些基本概念
2.1.5 贝叶斯统计对例2.1的推断
2.2 关于伯努利试验概率的推断
2.2.1 经典统计的显著性检验
2.2.2 经典统计关于比例p的置信区间
2.2.3 贝叶斯统计对例2.2的推断
2.2.4 贝叶斯最高密度区域
2.3 习题
2.4 附录:本章的Python代码
2.4.1 2.1节的Python代码
2.4.2 2.2节的Python代码
第3章 有监督学习基础
3.1 引言
3.2 简单回归模型初识
3.2.1 回归数据例31的初等描述
3.2.2 简单回归模型拟合
3.2.3 验证和模型比较:交叉验证
3.3 最小二乘线性回归模型
3.3.1 线性回归模型的数学假定
3.3.2 训练模型的标准:平方损失:最小二乘法
3.3.3 分类自变量在线性回归中的特殊地位
3.3.4 连续型变量和分类变量的交互作用
3.3.5 对例3.1服装业生产率数据做最小二乘线性回归
3.3.6 “皇帝的新衣”:线性回归的“可解释性”仅仅是个一厢情愿的信仰
3.4 决策树回归
3.4.1 决策树的基本构造
3.4.2 竞争拆分变量的度量:数量变量的不纯度
3.4.3 用例3.1从数值上解释不纯度和拆分变量选择
3.4.4 决策树回归的变量重要性
3.5 通过例子总结两种回归方法
3.5.1 用全部数据训练模型
3.5.2 对新数据做预测
3.5.3 交叉验证
3.6 简单分类模型初识
3.6.1 分类问题数据例3.4泰坦尼克乘客数据的初等描述
3.6.2 简单分类模型拟合
3.6.3 验证和模型比较:交叉验证
3.7 Logistic回归的数学背景
3.7.1 线性回归的启示
3.7.2 二项分布或伯努利分布情况
3.7.3 其他分布的情况:广义线性模型
3.8 决策树分类的更多说明
3.8.1 纯度的直观感受
3.8.2 竞争拆分变量的度量:分类变量的不纯度
3.8.3 用例3.4泰坦尼克乘客数据在数值上解释不纯度和拆分变量选择
3.8.4 决策树分类的变量重要性
3.9 通过例子对两种分类方法进行总结
3.9.1 用全部数据训练模型
3.9.2 对新数据做预测
3.9.3 交叉验证
3.10 多分类问题
3.10.1 例子及描述
3.10.2 决策树分类
3.10.3 决策树分类的变量重要性
3.10.4 一些机器学习模型的交叉验证比较
3.11 习题
3.12 附录:正文中没有的R代码
3.12.1 3.2节的代码
3.12.2 3.3节的代码
3.12.3 3.4节的代码
3.12.4 3.6节的代码
3.12.5 3.8节的代码
3.12.6 3.10节的代码
3.13 附录:本章的Pyt}ion代码
3.13.1 3.2节的Python代码
3.13.2 3.3节的Python代码
3.13.3 3.4节的Python代码
3.13.4 3.5节的Python代码
3.13.5 3.6节的Python代码
3.13.6 3.8节的Python代码
3.13.7 3.9节的Python代码
3.13.8 3.10节的Python代码
第4章 机器学习组合算法
4.1 什么是组合算法
4.1.1 基本概念
4.1.2 例子
4.1.3 基础学习器变量及数据变化的影响
4.1.4 过拟合现象
4.1.5 基于决策树没有过拟合现象的组合算法
4.2 bagging
4.2.1 bagging回归实践
4.2.2 bagging分类实践
4.3 随机森林
4.3.1 随机森林回归
4.3.2 例4.2Ames住房数据随机森林回归的变量重要性
4.3.3 例4.2Ames住房数据随机森林回归的局部变量重要性
4.3.4 例4.2Ames住房数据随机森林回归的局部依赖图
4.3.5 亲近度和离群点
4.3.6 随机森林分类
4.3.7 随机森林分类的变量重要性
4.3.8 例3.6皮肤病数据随机森林分类的局部变量重要性
4.3.9 例36皮肤病数据随机森林分类的局部依赖性
4.3.10 例36皮肤病数据
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证