搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Python数据采集预处理与可视化/大数据与人工智能技术丛书
0.00     定价 ¥ 49.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302695424
  • 作      者:
    编者:吕云翔//姚泽良|责编:安妮
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2025-07-01
收藏
畅销推荐
内容介绍
本书共5部分。第1部分(第1章)为基础理论,概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分(第2、3章)为数据采集,详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集。第3部分(第4、5章)为数据预处理,深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术,以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分(第6、7章)为数据可视化,讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分(第8~10章)为案例,展示使用Python进行数据采集、预处理与可视化的全过程。 本书既可以作为高等院校计算机及相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。
展开
目录
第1部分 基础理论
第1章 大数据概述
1.1 大数据基础
1.1.1 大数据的基本概念
1.1.2 大数据的5V特征
1.1.3 大数据的发展历程
1.2 大数据生态系统
1.2.1 Hadoop
1.2.2 Spark
1.3 大数据的实际应用
1.3.1 大数据的应用领域
1.3.2 大数据面临的挑战
思考与练习
章节实训:大数据软件生态探索
第2部分 数据采集
第2章 数据采集基础
2.1 数据采集的基本概念和特征
2.1.1 数据采集的基本概念
2.1.2 数据采集的特征
2.2 数据采集的方法
2.2.1 数据库采集
2.2.2 系统日志采集
2.2.3 网络数据采集
2.2.4 传感器采集
2.2.5 众包采集
2.3 数据采集的技术
2.3.1 网络爬虫
2.3.2 数据抽取技术
2.4 数据采集工具介绍
思考与练习
章节实训:利用Octoparse采集网站数据
第3章 Python网络数据采集
3.1 网络爬虫基础
3.1.1 HTML
3.1.2 HTTP
3.1.3 JavaScript
3.1.4 Robots协议
3.2 Python爬虫基础库编写爬虫
3.2.1 Requests库采集网页
3.2.2 BeautifulSoup库解析网页
3.3 Scrapy框架构建爬虫
3.3.1 Scrapy框架简介
3.3.2 Scrapy框架安装
3.3.3 Scrapy框架爬虫编写
3.4 Selenium库模拟人工爬虫
3.4.1 Selenium库简介
3.4.2 Selenium库与浏览器驱动安装
3.4.3 Selenium库爬虫编写
思考与练习
章节实训:股票报告爬虫编写
第3部分 数据预处理
第4章 数据预处理基础
4.1 概述
4.1.1 数据预处理的意义
4.1.2 数据预处理的分类
4.2 数据清理
4.2.1 内容格式错误数据处理
4.2.2 缺失值处理
4.2.3 噪声数据处理
4.2.4 重复数据处理
4.3 数据集成
4.3.1 实体识别问题
4.3.2 冗余问题
4.3.3 冲突数据值的检测与处理
4.4 数据归约
4.4.1 维度归约
4.4.2 数量归约
4.4.3 数据压缩
4.5 数据转换
4.5.1 数据离散化
4.5.2 数据标准化
4.5.3 对数变换与指数变换
4.5.4 数据脱敏
思考与练习
章节实训:文本数据预处理
第5章 Python数据预处理
5.1 科学计算库NumPy
5.1.1 NumPy介绍与安装
5.1.2 NumPy的数据结构与索引
5.1.3 NumPy的数据类型与转换
5.1.4 NumPy的数学运算
5.1.5 NumPy常用的数学函数
5.1.6 Numpy缺失值、异常值和重复值的处理
5.2 数据分析库Pandas
5.2.1 Pandas介绍与安装
5.2.2 Pandas的数据结构与索引
5.2.3 Pandas的数据类型与转换
5.2.4 Pandas的数据输入与输出
5.2.5 Pandas常用的数学函数
5.2.6 Pandas缺失值、异常值和重复值处理
5.2.7 apply()函数
5.2.8 Pandas数据分组
5.2.9 Pandas数据合并
思考与练习
章节实训:空气质量分析
第4部分 数据可视化
第6章 数据可视化基础
6.1 数据可视化概述
6.1.1 数据可视化的发展历史
6.1.2 数据可视化的分类
6.2 时间数据可视化
6.2.1 时间数据可视化的方法
6.2.2 时间数据可视化的应用
6.3 比例数据可视化
6.3.1 比例数据可视化的方法
6.3.2 比例数据可视化的应用
6.4 关系数据可视化
6.4.1 关系数据可视化的方法
6.4.2 关系数据可视化的应用
6.5 文本数据可视化
6.5.1 文本数据可视化的方法
6.5.2 文本数据可视化的应用
6.6 复杂数据可视化
6.6.1 复杂数据可视化的方法
6.6.2 复杂数据可视化的应用
思考与练习
章节实训:可视化图表绘制
第7章 Python数据可视化
7.1 Python数据可视化库概述
7.1.1 Matplotlib
7.1.2 Seaborn
7.1.3 pyecharts
7.1.4 NetworkX
7.1.5 wordcloud
7.2 Matplotlib图表绘制
7.2.1 Matplotlib安装
7.2.2 Matplotlib绘图
7.2.3 Matplotlib绘图参数设置
7.3 Seaborn图表绘制
7.3.1 Seaborn安装
7.3.2 Seaborn绘图
7.3.3 Seaborn绘图参数设置
7.4 pyecharts图表绘制
7.4.1 pyecharts安装
7.4.2 pyecharts绘图
7.4.3 pyecharts绘图参数设置
7.5 NetworkX图表绘制
7.5.1 NetworkX安装
7.5.2 NetworkX绘图
7.5.3 NetworkX绘图参数设置
7.6 wordcloud图表绘制
7.6.1 wordcloud安装
7.6.2
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证