信阅平台

作者简介

曾剑平，博士，复旦大学计算机科学技术学院副教授、硕士生导师。曾供职于软件公司并担任总工程师。担任International Journal of Network Security（信息安全、EI源刊）、Journal of Emerging Technologies in Web Intelligence（Web智能）、《计算机工程与应用》等多个国内外知名学术期刊的编委。担任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、计算机科学、小型微型计算机系统等多个国内外学术期刊的审稿专家。近十多年来，申请专利10多项，其中5项为授权发明专利（第一发明人），获得1项软件著作权（第一完成人）。主持国家自然科学基金面上项目、上海市自然科学基金项目、教育部课题以及企业委托项目多项，参与国家重点科技计划、国家信息化专家咨询委员会、国家保密局、上海科委以及企业合作等项目研究。目前主要研究方向是社交媒体分析及应用、网络舆情分析技术和大数据安全。作为第一作者和通讯作者发表相关技术方向的论文60多篇，其中有10多篇是在国际著名学术期刊上。

展开

内容介绍

本书围绕大数据采集,对采集技术的相关基础、技术原理、 Py t hon实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Py t hon程序。全书共分为四大部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Py t hon采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robo t s、 HTML、页面编码等相关协议和规范; 第三部分是技术与实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 De ep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Py t hon例子; 第四部分是大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Py t hon爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。

展开