搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据科学导论:Python语言实现
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787111544340
  • 作      者:
    (意)阿尔贝托·博斯凯蒂(Alberto Boschetti),(意)卢卡·马萨罗(Luca Massaron)著
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2016
收藏
编辑推荐

本书首先介绍如何设置基本的数据科学工具箱,然后带你进入数据改写和预处理阶段,这一部分主要是阐明所有与核心数据科学活动相关的数据分析过程,如数据加载、转换、修复以及数据探索和处理等。最后,通过主要的机器学习算法、图形分析技术,以及所有易于表现结果的可视化工具,实现对数据科学的概述。
本书行文过程以数据科学项目为主体,辅以整洁的代码和简化的示例,能帮助你理解与项目相关的潜在原理和实际数据集。

通过阅读本书,你将学到:
使用Windows、Mac和Linux系统上的Python科学环境设置数据科学工具箱
为数据科学项目准备数据
为了解决数据科学问题,进行数据操作、修复和探索
建立实验流程来检验数据科学假设
为数据科学任务选择*有效和可扩展的学习算法
优化机器学习模型,以获得*佳性能
进行图的探索和聚集分析,充分利用数据中的联系和连接

展开
作者简介

Alberto Boschetti 数据科学家、信号处理和统计学方面的专家。他拥有通信工程专业博士学位,现在伦敦居住和工作。基于所从事的项目,他每天都要面对包括自然语言处理、机器学习和概率图模型等方面的挑战。他对工作充满激情,经常参加学术聚会、研讨会等学术活动,紧跟数据科学技术发展的前沿。
Luca Massaron 数据科学家、市场研究总监,是多元统计分析、机器学习和客户洞察方面的专家,有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。他是意大利网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与一切与数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的本质能带来巨大收获。

展开
内容介绍

本书由两位资深数据科学家撰写,融合其多年从事数据科学相关的教学和科研工作经验,借助现有的Python语法和结构知识,全面而系统地讲解进行数据科学分析和开发的相关工具、技术和*佳实践,包含清晰的代码和简化的示例。通过阅读本书,你将深入理解Python核心概念,成为高效数据科学实践者。
本书共6章,系统介绍了进行数据科学分析和开发所涉及的关键要素。书中首先介绍Python软件及相关工具包的安装和使用;接着不仅讲解数据加载、运算和改写等基本数据准备过程,还详细介绍特征选择、维数约简等高级数据操作方法;并且建立了由训练、验证、测试等过程组成的数据科学流程,结合具体示例深入浅出地讲解了多种机器学习算法;然后介绍了基于图模型的社会网络创建、分析和处理方法;最后讲解数据分析结果的可视化及相关工具的使用方法。

展开
目录

译者序
前言
第1章 新手上路1
1.1 数据科学与Python简介1
1.2 Python的安装2
1.2.1 Python 2还是Python 33
1.2.2 分步安装3
1.2.3 Python核心工具包一瞥4
1.2.4 工具包的安装7
1.2.5 工具包升级9
1.3 科学计算发行版9
1.3.1 Anaconda10
1.3.2 Enthought Canopy10
1.3.3 PythonXY10
1.3.4 WinPython10
1.4 IPython简介10
1.4.1 IPython Notebook12
1.4.2 本书使用的数据集和代码18
1.5 小结25
第2章 数据改写26
2.1 数据科学过程26
2.2 使用pandas进行数据加载与预处理27
2.2.1 数据快捷加载27
2.2.2 处理问题数据30
2.2.3 处理大数据集32
2.2.4 访问其他数据格式36
2.2.5 数据预处理37
2.2.6 数据选择39
2.3 使用分类数据和文本数据41
2.4 使用NumPy进行数据处理49
2.4.1 NumPy中的N维数组49
2.4.2 NumPy ndarray对象基础50
2.5 创建NumPy数组50
2.5.1 从列表到一维数组50
2.5.2 控制内存大小51
2.5.3 异构列表52
2.5.4 从列表到多维数组53
2.5.5 改变数组大小54
2.5.6 利用NumPy函数生成数组56
2.5.7 直接从文件中获得数组57
2.5.8 从pandas提取数据57
2.6 NumPy快速操作和计算58
2.6.1 矩阵运算60
2.6.2 NumPy数组切片和索引61
2.6.3 NumPy数组堆叠63
2.7 小结65
第3章 数据科学流程66
3.1 EDA简介66
3.2 特征创建70
3.3 维数约简72
3.3.1 协方差矩阵72
3.3.2 主成分分析73
3.3.3 一种用于大数据的PCA变型—Randomized PCA76
3.3.4 潜在因素分析77
3.3.5 线性判别分析77
3.3.6 潜在语义分析78
3.3.7 独立成分分析78
3.3.8 核主成分分析78
3.3.9 受限玻耳兹曼机80
3.4 异常检测和处理81
3.4.1 单变量异常检测82
3.4.2 EllipticEnvelope83
3.4.3 OneClassSVM87
3.5 评分函数90
3.5.1 多标号分类90
3.5.2 二值分类92
3.5.3 回归93
3.6 测试和验证93
3.7 交叉验证97
3.7.1 使用交叉验证迭代器99
3.7.2 采样和自举方法100
3.8 超参数优化102
3.8.1 建立自定义评分函数104
3.8.2 减少网格搜索时间106
3.9 特征选择108
3.9.1 单变量选择108
3.9.2 递归消除110
3.9.3 稳定性选择与基于L1的选择111
3.10 小结112
第4章 机器学习113
4.1 线性和逻辑回归113
4.2 朴素贝叶斯116
4.3 K近邻118
4.4 高级非线性算法119
4.4.1 基于SVM的分类算法120
4.4.2 基于SVM的回归算法122
4.4.3 调整SVM123
4.5 组合策略124
4.5.1 基于随机样本的粘合策略125
4.5.2 基于弱组合的分袋策略125
4.5.3 随机子空间和随机分片126
4.5.4 模型序列—AdaBoost127
4.5.5 梯度树提升128
4.5.6 处理大数据129
4.6 自然语言处理一瞥136
4.6.1 词语分词136
4.6.2 词干提取137
4.6.3 词性标注137
4.6.4 命名实体识别138
4.6.5 停止词139
4.6.6 一个完整的数据科学示例—文本分类140
4.7 无监督学习概述141
4.8 小结146
第5章 社会网络分析147
5.1 图论简介147
5.2 图的算法152
5.3 图的加载、输出和采样157
5.4 小结160
第6章 可视化161
6.1 matplotlib基础介绍161
6.1.1 曲线绘图162
6.1.2 绘制分块图163
6.1.3 散点图164
6.1.4 直方图165
6.1.5 柱状图166
6.1.6 图像可视化167
6.2 pandas的几个图形示例169
6.2.1 箱线图与直方图170
6.2.2 散点图171
6.2.3 平行坐标173
6.3 高级数据学习表示174
6.3.1 学习曲线174
6.3.2 验证曲线176
6.3.3 特征重要性177
6.3.4 GBT部分依赖关系图179
6.4 小结180

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证