信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书详细介绍大数据采集与清洗的相关知识和技术，共9章，分别是概述、网络爬虫基础、网页数据抓取、缓存下载页面、并发／并行爬取、用Selenium抓取动态内容、Scrapy爬虫框架及其应用、大数据平台系统日志采集、pandas数据清洗。本书大体上由数据采集（第2～8章）和数据清洗（第9章）两部分内容构成，以Python作为编程语言。数据采集部分以Web数据采集为主，也涉及Hadoop大数据平台的数据采集，内容由浅入深，循序渐进，理论与实践相结合，帮助读者理解和掌握数据采集的相关技术；数据清洗部分主要介绍pandas库的使用，帮助读者掌握数据清洗的方法。本书每章都有配套的习题，有助于读者巩固所学知识。本书可作为高校数据科学与大数据技术、信息管理与信息系统等专业相关课程的教材，也可作为大数据工程师的必备手册，还可作为网络爬虫爱好者和计算机领域的技术人员的参考书。

展开

精彩书评

展开

精彩书摘

展开

第1章概述
1.1 大数据来源
1.2 数据采集方法与基本流程
1.2.1 数据采集方法
1.2.2 数据采集基本流程
1.3 数据清洗方法与基本流程
1.3.1 数据清洗方法
1.3.2 数据清洗工具
1.3.3 数据清洗基本流程
1.4 本书主要内容及主要案例
1.4.1 主要内容
1.4.2 主要案例
1.4.3 编程工具
1.5 本章小结
1.6 习题
第2章网络爬虫基础
2.1 网络爬虫简介
2.1.1 网络爬虫分类
2.1.2 网络爬虫应遵守的基本准则
2.2 调研目标网站
2.2.1 了解目标网站所采用的技术与审查网页元素
2.2.2 了解网站结构与规模
2.2.3 分析robots.txt文件
2.2.4 分析网站地图文件sitemap.xml
2.3 使用urllib包下载网页
2.3.1 下载页面HTML源代码
2.3.2 设置字符编码
2.3.3 存储HTML源代码至文件
2.3.4 异常处理
2.3.5 下载重试
2.3.6 设置用户代理
2.3.7 获取网页字符集
2.4 使用requests包下载网页
2.4.1 requests包简介
2.4.2 基于requests包的页面下载器
2.5 网络爬虫的实现
2.5.1 站点地图爬虫
2.5.2 链接模板爬虫
2.5.3 链接跟踪爬虫
2.6 对爬虫限速
2.6.1 爬虫限速器Throttle类
2.6.2 限速器安装到链接跟踪爬虫
2.7 让爬虫遵守站点robots协议
2.7.1 使用urllib.robotparser模块解析robots.txt文件
2.7.2 为链接跟踪爬虫添加robot解析器
2.8 本章小结
2.9 习题
第3章网页数据抓取
3.1 了解HTML
3.1.1 什么是HTML
3.1.2 HTML文档结构
3.1.3 HTML元素的属性
3.2 在Web浏览器中审查网页
3.3 使用正则表达式抓取数据
3.3.1 正则表达式
3.3.2 re模块
3.3.3 使用re模块抓取页面数据
3.4 使用Beautiful Soup包抓取数据
3.4.1 Beautiful Soup包
3.4.2 遍历soup文档树
3.4.3 搜索soup文档树
3.4.4 提取元素中的内容文本
3.4.5 使用Beautiful Soup抓取页面数据
3.4.6 使用Web浏览器工具测试和获取CSS选择器
3.5 使用lxml包抓取数据
3.5.1 lxml中使用CSS选择器
3.5.2 XPath选择器
3.5.3 使用Web浏览器工具测试和获取XPath选择器
3.5.4 使用XPath选择器抓取页面数据
3.6 3种抓取方法性能对比
3.7 本章小结
3.8 习题
第4章缓存下载页面
4.1 将HTML文档缓存至磁盘
4.1.1 解析URL
4.1.2 编写磁盘缓存类
4.1.3 为磁盘缓存添加失效时间
4.1.4 将磁盘缓存功能集成到爬虫下载器类
4.1.5 在链接跟踪爬虫中使用新下载器
4.1.6 在链接跟踪爬虫中使用磁盘缓存
4.2 使用Redis
4.2.1 Redis安装与配置
4.2.2 Redis基本命令
4.2.3 Redis可视化管理工具
4.2.4 在Python程序中访问Redis
4.3 将HTML文档缓存至Redis
4.3.1 编写Redis缓存类
4.3.2 在链接跟踪爬虫中使用Redis缓存
4.4 本章小结
4.5 习题
第5章并发/并行爬取
5.1 线程与进程
5.2 使用threading模块创建多线程爬虫
5.2.1 threading模块
5.2.2 线程的生命周期
5.2.3 线程等待
5.2.4 创建守护线程
5.2.5 为链接跟踪爬虫创建多线程
5.3 使用线程池实现多线程
5.3.1 线程池的使用
5.3.2 使用线程池实现多线程的链接跟踪爬虫
5.4 使用multiprocessing包创建多进程爬虫
5.4.1 multiprocessing包
5.4.2 为链接跟踪爬虫创建多进程多线程
5.5 串行爬虫、多线程爬虫与多进程爬虫性能比较
5.6 本章小结
5.7 习题
第6章用Selenium抓取动态内容
6.1 了解JavaScript、jQuery和AJAX
6.1.1 为何抓取数据失败了
6.1.2 JavaScript、jQuery和AJAX
6.2 使用Selenium获取动态数据
6.2.1 安装Selenium与WebDriver
6.2.2 使用Selenium与浏览器交互
6.2.3 案例1——爬取火车票信息
6.2.4 案例2——爬取京东商城数据
6.3 通过数据请求API获取数据
6.4 本章小结
6.5 习题
第7章 Scrapy爬虫框架及其应用
7.1 Scrapy爬虫框架简介
7.1.1 Scrapy爬虫框架结构
7.1.2 Scrapy基本工作流程
7.2 安装Scrapy
7.3 创建Scrapy爬虫项目
7.3.1 创建基于Scrapy爬虫框架的爬虫项目
7.3.2 定义数据模型
7.3.3 创建爬虫
7.3.4 修改settings.py中的某些参数
7.3.5 运行爬虫项目
7.3.6 保存爬取结果
7.4 使用项目管道
7.4.1 启用项目管道
7.4.2 实现项目管道功能
7.5 使用中间件
7.5.1 编写爬虫中间件
7.5.2 下载器中间件
7.6 本章小结
7.7 习题
第8章大数据平台系统日志采集
8.1 Ha

展开