第1章 Python数据分析概述
1.1 什么是数据分析聞
1.1.1 数据分析的重要性
1.1.2 数据分析的内容
1.2 数据分析的基本流程
1.3 数据分析的常用工具
1.4 数据分析的常用类库
1.5 数据分析的开发环境
1.5.1 Anaconda的下载和安装
1.5.2 JupyterNotebook的使用
1.5.3 Spyder的使用
本章小结
习题1
第2章 Python爬虫基础
2.1 认识爬虫
2.1.1 爬虫的概念
2.1.2 爬虫的原理与类型
2.1.3 爬虫的合法性和robots协议
2.2 爬虫的组成及反爬虫措施
2.2.1 网络爬虫的组成
2.2.2 网站反爬虫策略
2.2.3 爬取策略的制定
2.3 模拟请求爬取数据
2.3.1 Chrome开发者工具
2.3.2 认识HTTP
2.3.3 认识requests库
2.4 解析数据
2.4.1 网页的组成
2.4.2 BeautifulSoup库
2.4.3 文档树的遍历
2.4.4 文档树的搜索
2.4.5 CSS选择器查找
本章小结
习题2
第3章 Python爬虫实战
3.1 实战:中国A股上市公司相关数据的获取
3.1.1 目标网站分析
3.1.2 表格数据的爬取和解析
3.1.3 模块化程序的编写
3.2 解析数据的存取
3.2.1 文本文件的存取
3.2.2 CSV文件的存取
3.2.3 JSON文件的存取鸭
3.3 实战:豆瓣读书Top250的数据的获取
3.3.1 目标网站分析聞
3.3.2 半结构化数据的爬取、解析和存储
3.3.3 模块化程序的编写
3.4 正则表达式
3.4.1 正则表达式基础兴
3.4.2 正则表达式的用法
3.4.3 用正则表达式提取豆瓣读书排行榜网页数据的实战案例
3.5 实战:人民网科技类新闻的获取
3.5.1 目标网站分析
3.5.2 科技新闻列表的获取与存储
3.5.3 新闻的获取与存储
本章小结
习题3
第4章 pandas和numpy基础
4.1 pandas及其数据结构
4.1.1 Series数据结构及其创建问
4.1.2 DataFrame数据结构及其创建
4.2 使用pandas导入和导出数据
4.2.1 导人外部数据典
4.2.2 导出外部数据
4.3 numpy及其数据结构
4.3.1 使用numpy创建数组对象
4.3.2 ndarray类的常用属性及基本操作
本章小结
习题4
第5章 Python数据表分析
5.1 数据概览及预处理
5.1.1 数据概览分析
5.1.2 数据清洗
5.1.3 数据的抽取与合并
5.1.4 数据的增、删、改
5.1.5 数据转换
5.2 数据的描述性统计分析
5.2.1 数据排序和排名
5.2.2 常见的数据计算方法
5.3 分组统计
5.3.1 数据分组
5.3.2 分组聚合
5.4 实战:豆瓣读书Top250的数据表分析
5.4.1 数据预处理
5.4.2 数据分析
本章小结
习题5
第6章 可视化分析
6.1 可视化分析概述
6.1.1 图表类型及选择
6.1.2 图表的基本组成
6.2 图表的常用设置
6.2.1 基本plot绘图函数
6.2.2 图的属性设置
6.2.3 图的类型设置
6.2.4 其他设置
6.3 图表的绘制
6.3.1 折线图的绘制
6.3.2 柱形图的绘制
6.3.3 直方图的绘制
6.3.4 饼形图的绘制
6.3.5 散点图的绘制
6.3.6 雷达图的绘制
6.4 实战:豆瓣读书Top250的可视化分析
6.4.1 豆瓣读书排行榜的评分值分析
6.4.2 评分值Top5排行榜分析
6.4.3 出版社Top10占比分析
6.4.4 Top100图书的价格分布
本章小结
习题6
第7章 数据分析实战
7.1 对比分析及实战案例
7.1.1 对比分析
7.1.2 对比分析实战案例
7.2 趋势分析及实战案例
7.2.1 趋势分析概述
7.2.2 同比分析实战案例
7.2.3 定比分析实战案例
7.2.4 环比分析实战案例
7.3 差异化分析及实战案例
7.3.1 差异化分析概述
7.3.2 差异化分析实战案例
7.4 相关性分析及实战案例
7.4.1 相关性分析概述
7.4.2 相关性分析实战案例
本章小结
习题7
第8章 文本数据分析
8.1 文本数据预处理
8.1.1 去噪声”
8.1.2 中文分词和添加用户词典
8.1.3 去停用词
8.1.4 构建词向量产
8.2 文本数据分析方法
8.2.1 高频词分析
8.2.2 关键词分析
8.2.3 词性分布分析
8.3 生成词云图
8.4 实战:携程网酒店评论文本数据分析
本章小结
习题8
展开