搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Python爬虫大数据采集与挖掘:微课视频版
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787302540540
  • 作      者:
    曾剑平编著
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2020
收藏
作者简介

曾剑平,博士,复旦大学计算机科学技术学院副教授、硕士生导师。曾供职于软件公司并担任总工程师。担任International Journal of Network Security(信息安全、EI源刊)、Journal of Emerging Technologies in Web Intelligence(Web智能)、《计算机工程与应用》等多个国内外知名学术期刊的编委。担任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、计算机科学、小型微型计算机系统等多个国内外学术期刊的审稿专家。近十多年来,申请专利10多项,其中5项为授权发明专利(第一发明人),获得1项软件著作权(第一完成人)。主持国家自然科学基金面上项目、上海市自然科学基金项目、教育部课题以及企业委托项目多项,参与国家重点科技计划、国家信息化专家咨询委员会、国家保密局、上海科委以及企业合作等项目研究。目前主要研究方向是社交媒体分析及应用、网络舆情分析技术和大数据安全。作为第一作者和通讯作者发表相关技术方向的论文60多篇,其中有10多篇是在国际著名学术期刊上。


展开
内容介绍

本书围绕大数据采集,对采集技术的相关基础、技术原理、 Py t hon实现技术、大数据挖掘与应用方法 进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提 供了27个与爬虫技术和应用相关的Py t hon程序。全书共分为四大部分,即概述、基础篇、技术与实现篇 、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Py t hon采集互联网大数据的重要性,介绍了 相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robo t s、 HTML、页面编码等相关协议和规范; 第三部分是技术与 实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 De ep Web爬虫、微博信息采集 、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Py t hon例子; 第四部分是 大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常 见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Py t hon爬虫应用构建方法,将本书介 绍的一些关键技术、模型和工具贯穿在一起。


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证