搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据科学工程实践/新工科新商科大数据与商务智能系列
0.00     定价 ¥ 79.90
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787121488481
  • 作      者:
    编者:郭继东//于春欣//张华//李志青|责编:王二华
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2024-09-01
收藏
畅销推荐
内容介绍
本书是高等学校开设数据科学导论或工程实践等课程的配套用书。本书不仅介绍了数据科学的基础知识,还特别引入了探索性数据分析流程的相关内容,主要包括实践平台配置、数据预处理、数据存储与管理、探索性数据分析、单模型学习算法、集成学习算法和数据可视化等;精心设计其中的函数应用实践和综合应用实践,前者聚焦具体函数的解释和应用,后者致力于实际问题解决思路的探讨。读者可以由浅入深地了解相关理论,逐步完成相关实验内容,增强理论和实践的连贯性认知,培养数据思维和动手实践能力。 本书可作为高等学校各相关专业的数据科学导论或实践等课程的配套教材,也可供对数据科学感兴趣的读者阅读。
展开
目录
第1章 数据科学概述
1.1 数据科学简介
1.1.1 基本概念及发展历史
1.1.2 特点及应用领域
1.1.3 数据科学的过程
1.2 Python的安装
1.3 常用工具包概述
1.4 Anaconda3的安装
1.5 Jupyter Notebook的使用
1.5.1 Jupyter Notebook简介
1.5.2 Jupyter Notebook的启动
1.5.3 新手如何快速上手Jupyter Notebook
1.6 本章小结
课后习题
第2章 数据预处理
2.1 NumPy数据处理及运算
2.1.1 NumPy的安装
2.1.2 创建N维数组
2.1.3 NumPy切片和索引
2.1.4 NumPy数组操作
2.1.5 数学函数
2.1.6 统计函数
2.1.7 排序函数
2.1.8 直方图函数
2.2 Pandas基础
2.2.1 数据快捷加载
2.2.2 Pandas的数据结构
2.3 非数值数据转换
2.3.1 map()函数
2.3.2 One-Hot编码
2.4 数据清洗
2.4.1 缺失值处理
2.4.2 错误数据替换
2.4.3 数据去重
2.4.4 数据合并连接
2.4.5 数据分组及聚合
2.5 本章小结
课后习题
第3章 数据存储与管理
3.1 概述
3.1.1 数据存储的概念
3.1.2 数据管理技术的概念
3.1.3 数据库的概念
3.1.4 新型数据管理系统
3.2 关系数据库
3.2.1 关系数据模型
3.2.2 应用举例
3.3 分布式文件系统
3.3.1 HDFS的概念及特点
3.3.2 HDFS数据文件存储
3.3.3 HDFS的结构及组件
3.3.4 HDFS的读/写操作
3.3.5 Python访问HDFS
3.4 分布式数据库
3.4.1 HBase的特点
3.4.2 HBase相关概念
3.4.3 HBase架构
3.4.4 Python操作HBase
3.5 流数据
3.5.1 流数据概述
3.5.2 流数据模型
3.5.3 流数据处理系统
3.6 本章小结
课后习题
第4章 探索性数据分析
4.1 EDA简介
4.2 特征创建
4.3 维度约简
4.3.1 为什么要降维
4.3.2 基于特征转换的降维
4.3.3 基于特征选择的降维
4.3.4 基于特征组合的降维
4.4 异常值检测及处理
4.4.1 单变量异常检测
4.4.2 OneClassSVM
4.4.3 EllipticEnvelope
4.5 评价函数
4.5.1 多标签分类
4.5.2 二分类
4.5.3 回归
4.6 测试和验证
4.7 交叉验证
4.7.1 建立自定义评分函数
4.7.2 使用交叉验证迭代器
4.8 超参数调优
4.8.1 超参数调优概述
4.8.2 超参数调优实践
4.9 小结
课后习题
第5章 单模型学习算法
5.1 概述
5.1.1 分类模型和回归模型
5.1.2 机器学习的步骤和要素
5.2 线性回归和逻辑回归
5.2.1 从线性回归到逻辑回归
5.2.2 线性回归实践
5.2.3 Sigmoid函数
5.2.4 推广至多元场景
5.2.5 逻辑回归实践
5.2.6 算法小结
进阶A 交叉熵损失函数和平方差损失函数
5.3 朴素贝叶斯分类
5.3.1 朴素贝叶斯分类算法
5.3.2 朴素贝叶斯实践
5.3.3 算法小结
5.4 最近邻算法
5.4.1 k近邻算法的概念及原理
5.4.2 k值的选取及特征归一化的重要性
5.4.3 最近邻算法实践
5.4.4 算法小结
进阶B kd树
B.1 kd树的构建
B.2 kd树的搜索
B.3 kd树的不足
5.5 支持向量机
5.5.1 支持向量机基础
5.5.2 软间隔
5.5.3 核函数
5.5.4 支持向量机实践
5.5.5 算法小结
进阶C 对偶问题
C.1 拉格朗日乘子法
C.2 支持向量机优化
进阶D 软间隔情况下的化问题及其求解
5.6 决策树
5.6.1 信息论知识
5.6.2 决策树基础
5.6.3 决策树实践
5.6.4 算法小结
5.7 聚类
5.7.1 K均值聚类
5.7.2 小批量KMeans
5.7.3 Affinity Propagation聚类算法
5.7.4 层次聚类
5.7.5 DBSCAN
5.7.6 算法小结
5.8 本章小结
课后习题
第6章 集成学习算法
6.1 集成学习能带来什么
6.1.1 集成学习的基本步骤
6.1.2 集成学习中的偏差与方差
6.2 Bagging元学习器
6.3 随机森林
6.3.1 随机森林算法
6.3.2 极度随机化树
6.3.3 随机森林实践
6.3.4 算法小结
6.4 Boosting算法
6.5 AdaBoost算法
6.5.1 AdaBoost实践
6.5.2 算法小结
进阶E AdaBoost算法伪代码
6.6 GBDT算法
6.6.1 分类和回归
6.6.2 GBDT实践
6.7 基于直方图的梯度提升
6.7.1 用法
6.7.2 直方图梯度提升模型实践
6.8 堆叠泛化
6.9 概率校准
6.9.1 校准曲线
6.9.2 校准分类器
6.10 本章小结
课后习题
第7章 数据可视化
7.1 可视化的定义及作用
7.2 可视化的原则
7.3 常用的可视化分析技术与工具
7.4 Matp
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证