信阅平台

作者简介

Nathan George在科罗拉多州丹佛市的里吉斯大学（Regis University）担任教授并讲授了4年的数据科学课程。他拥有化学工程、LED照明用荧光粉和薄膜太阳能电池方面的相关背景，并利用所学知识成为一名数据科学家。他为Regis、DataCamp和ManningliveProject创建了许多数据科学课程。Nathan还为在Udacity学习人工智能和机器学习的学生提供指导。他目前在瑞典斯德哥尔摩的一家金融科技公司Tink担任数据科学家。
殷海英，从2013年底开始在美国大学作为客座教授，主持数据分析与数据科学项目的研究生研修班，截止2021年已经开办近20期，培训来自世界多个国家的数百名硕士（含博士）研究生。并独立编写数据分析与数据科学教材，并设计多版实训教程。在甲骨文公司，作为亚太区的数据科学家参与Oracle数据科学产品的研发与推广。近期的主要研究方向为机器视觉与高性能运算在现实当中的应用。作为甲骨文公司官方媒体的管理员及编辑，从2016年起编写并发表近100篇技术文章，涵盖数据库技术、数据科学以及机器视觉等方面。

展开

内容介绍

数据科学如今已经深入到我们生活中的各个领域，行业从业者都应该懂得一些数据科学的知识。那么如何能够快速掌握这门流行的技术呢？通过系统地学习本书和动手实践，可以满足这个需求。本书共六个部分，用通俗的语言和生动的例子为读者展现数据科学的魅力。第一部分介绍了数据科学的基本知识，让读者可以轻松了解它的流程与原理。第二部分，通过几个例子为读者介绍如何处理各种数据，从电子表格到网络抓取，涵盖了工作中的常用数据处理方法。第三部分，使用通俗易懂的语言为读者介绍数据科学中使用到的统计学知识。第四部分，通过示例介绍机器学习技术，让读者可以根据以往的数据对未来进行预测。在本书的后两部分，为读者介绍如何对文本进行分析及制作生动的报告，并讨论了数据科学的未来发展趋势。

展开

第1部分简介和基础知识
第1章数据科学简介 2
数据科学的起源 2
顶级数据科学工具和技能 5
GUI和平台 9
云端工具 10
统计方法和数学 12
数据的收集、组织和准备 12
软件开发 13
业务理解与沟通 13
数据科学及相关专业 13
选择如何专业化 16
数据科学项目方法论 18
进一步阅读数据科学项目管理策略 20
本章测试 21
本章小结 21
第2章 Python入门 23
使用Anaconda安装并使用Python 23
运行Python代码 25
为什么使用命令行 31
安装并使用代码文本编辑器―VS Code 33
安装Python包和创建虚拟环境 35
Python基础 38
列表、元组、集合和字典 45
循环和遍历 49
布尔值和条件 51
包和模块 53
函数 55
类 57
多线程和多进程 58
软件工程最佳实践 59
开发技巧 62
本章测试 64
本章小结 64
第2部分处理数据
第3章 Python中的SQL和内置文件处理模块 67
本章主要内容 67
使用基础Python加载、读取和写入文件 67
在Python中使用SQLAlchemy包 85
本章测试 87
本章小结 88
第4章使用Pandas和NumPy加载和整理数据 89
对iTunes数据进行整理和分析 89
使用Pandas进行探索性数据分析（EDA）和基本数据清理 94
清洗数据 104
使用GroupBy 115
将DataFrame写入磁盘 116
分析比特币价格数据 117
了解NumPy基础知识 119
本章测试 122
本章小结 122
第5章探索性数据分析和可视化 123
Python中的EDA和可视化库 123
使用Seaborn和pandas执行EDA 124
使用Python EDA包 140
使用可视化最佳实践 148
为共享及报告保存绘图 157
使用Plotly进行绘图 158
本章测试 161
本章小结 161
第6章数据处理文档和电子表格 163
解析和处理Word和PDF文档 163
使用Excel文件读取和写入数据 176
分析数据 181
使用openpyxl处理Excel文件 182
本章测试 184
本章小结 184
第7章网页抓取 186
了解互联网的结构 187
执行简单的网页抓取 189
从抓取的页面中解析HTML 196
使用XPath、lxml和bs4从网页中提取数据 199
从多个页面收集数据 203
使用API收集数据 205
使用API包装器 207
网络抓取的道德规范及合法性 212
本章测试 213
本章小结 214
第3部分数据科学中的统计学
第8章概率、分布和抽样 216
概率基础 216
分布 223
从数据中采样 234
本章测试 237
本章小结 238
第9章数据科学的统计检验 239
统计检验基础和样本比较检验 239
其他统计检验 248
本章测验 251
本章小结 251
第4部分机器学习
第10章为机器学习准备数据：特征选择、特征工程和降维 253
机器学习的类型 253
特征选择 255
单变量统计特征选择 260
特征工程 270
数据的清洗和准备 271
转换数值数据 277
提取日期时间特征 281
分箱（Binning） 282
热独编码和标签编码 283
降维 287
本章测试 291
本章小结 292
第11章机器学习分类 293
机器学习分类算法 293
逻辑回归的工作原理 297
使用sklearn检查特征的重要性 299
使用统计模型进行逻辑回归 301
最大似然估计、优化器和逻辑回归算法 304
正则化 307
超参数和交叉验证 308
大数据的逻辑回归（和其他模型） 310
用于二元分类的朴素贝叶斯 311
k-最近邻（KNN） 313
多类分类 315
选择正确的模型 319
“没有免费的午餐”定理 319
模型的计算复杂度 320
本章测试 321
本章小结 321
第12章评估机器学习分类模型和分类抽样 322
使用指标评估分类算法的性能 322
采样和平衡分类数据 339
本章测试 344
本章小结 344
第13章带有回归的机器学习 345
线性回归 345
评估回归模型 354
线性回归假设 358
大数据回归模型 362
预测 363
本章测试 366
本章小结 366
第14章优化模型和使用AutoML 368
使用搜索方法进行超参数优化 368
使用ML模型优化特征数量 377
使用PyCaret进行AutoML 378
本章测试 384
本章小结 384
第15章基于树的机器学习模型 385
决策树 385
随机森林 390
基于树的方法的特征重要性 395
增强树模型：AdaBoost、XGboost、LightGBM和CatBoost 397
在GPU上训练增强模型 404
LightGBM 405
CatBoost 408
使用提前停止的算法 410
本章测试 411
本章小结 411
第16章支持向量机（SVM）机器学习模型 413
SVM是如何工作的 414
使用SVM 416
本章测试 421
本章小结 421
第5部分文本分析和报告
第17章使用机器学习进行聚类 423
使用k-means聚类 423
聚类指标 424
优化k-means中的K 425
检查聚类 429
层次聚类 433
DBSCAN 436
其他无监督方法 438
本章测试 439
本章小结 439
第18章处理文本 441
文本预处理 441
基本的文本分析 453
无监督学习 463
监督学习 467
本章测试 474
本章小结 474
第6部分总结
第19章讲述数据故事和自动报告及仪表板 477
用数据讲故事 477
自动报告和仪表板 484
本章测试 491
本章小结 491
第20章道德与隐私 492
机器学习算法的道德 492
偏见 492
数据隐私 495
将数据科学用于公共利益 501
其他道德考虑 502
本章测试 504
本章小结 504
第21章数据科学的发展与未来 506
博客、newsletter、书籍和学术资源 506
在线学习平台 510
云服务 511
其他值得关注的内容 511
保持与时俱进的策略 512
其他没有在本书中涉及的内容 512
数据科学的未来发展 514
本章小结 515

展开