本书以Python作为主要工具,着重讲解海量数据采集与处理相关内容。力求通过由浅入深、先理论基础后实践应用的思路,培养学生应用Python解决实际问题的能力。全书内容分为上、下篇共9章。上篇主要介绍数据采集的基本概念、Python开发环境、数据采集常用的两种框架Numpy和Pandas的使用;下篇对数据采集原理、爬虫基础库的使用、页面采集框架的使用、数据的存储与使用、数据的清洗与预处理,以及综合实例的应用进行介绍。本书在内容编写与安排上尽量做到结构合理、逻辑严谨,可供信息管理与信息系统、大数据、计算机、人工智能等相关专业的学生使用;亦可供经济管理类其他专业学生入门参考,用于交叉方向的科学研究。
目录
上篇数据采集基础
1数据的采集与处理概述()
1.1大数据技术概述()
1.2数据采集概述()
1.3数据处理技术概述()
1.4Python数据采集和处理技术()
本章习题()
2Python数据采集与处理环境()
2.1Python的安装()
2.2集成开发器环境(IDE)介绍()
2.3请求库的安装()
2.4Web库的安装()
2.5数据库的安装()
2.6扩展库()
2.7Python基本语法()
本章习题()
3Numpy框架的使用()
3.1Numpy简介()
3.2Numpy框架使用简介()
3.3数组的创建()
3.4数组的运算()
3.5随机数的操作()
3.6统计函数分析()
本章习题()
4Pandas库的使用()
4.1Pandas简介()
4.2Pandas基本数据结构()
4.3Pandas基本功能介绍()
4.4Pandas分类类型()
4.5GroupBy高级应用()
4.6链式编程技术()
本章习题()
下篇数据采集实战应用
5基于Python的爬虫基础类库的使用()
5.1数据采集知识体系介绍()
5.2Python requests库的基本使用()
5.3Python Urllib库的基本使用()
5.4正则表达式的使用()
5.5XML文件的解析()
5.6多线程数据采集()
本章习题()
6页面采集框架的使用()
6.1Scrapy框架与Spider类()
6.2Scrapy与CrawlSpider类()
6.3Selenium框架与Webdriver库()
6.4Splash框架与API()
本章习题()
7数据的存储与使用()
7.1数据存取基本文件介绍()
7.2关系型数据库和非关系型数据库()
7.3PyMySQL基本功能和使用操作()
7.4PyMongoDB基本功能和使用()
7.5Redis-py基本功能和使用操作()
本章习题()
8数据清洗和预处理()
8.1数据编码问题()
8.2数据的清洗()
8.3数据的预处理()
8.4数据类型转换操作()
8.5字符串的操作()
8.6时序数据处理()
8.7分类字符串数据的量化处理()
本章习题()
9综合案例()
9.1金融新闻数据的采集与处理()
9.2获取新浪财经数据()
本章习题()