搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Internet主题搜索引擎设计与研究
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787508495781
  • 作      者:
    梁春燕著
  • 出 版 社 :
    中国水利水电出版社
  • 出版日期:
    2012
收藏
内容介绍
    作为搜索引擎领域的重要发展趋势之一,主题搜索引擎充分考虑和满足用户对某些特定领域的网络信息需求,具有高度的目标化和专业化。《Internet主题搜索引擎设计与研究》在继承国内外相关研究成果的基础上,以化学化工领域为例,设计了一个完整的主题搜索引擎系统,并基于专业知识库,研究了专业化爬行器、索引和检索的相关策略以及多语言自动分类技术和个性化技术,使Internet主题搜索引擎可提供更智能化、专业化和个性化的检索服务,更好地满足专业用户的信息需求。
    《Internet主题搜索引擎设计与研究》内容丰富、应用性强,可供信息管理、计算机应用等领域从事相关研究的专家学者、工程技术人员及高等院校相关专业教师、研究生参考使用。
展开
精彩书摘
    (1)深度优先策略(Depth-First Traversal):深度优先的URL搜索策略采用先进后出的堆栈方式。这种策略可以深入到服务器中,发现网站文档的完整结构,而且可以集中获取某个网站的网页,节省爬行的时间,但容易过度深入某些网站而影响其他网站服务器的发现。
    (2)广度优先策略(Breadth-First Traversal):广度优先的URL搜索策略采用先进先出的队列方式,当起始URL列表包含有大量的网站服务器地址时,广度优先搜索将产生一个很好的初始结果,在较短的时间内发现较多的网站,但很难深入到网站服务器中去。
    由于以上两种策略各有优缺点,可以采用综合的办法。对于每个HTML文档中的超级链接,可以分为内部链接和外部链接两种,内部链接是指向本网站的其他文档,而外部链接指向其他网站。对于内部链接,用深度优先算法遍历该网站的所有网页,可以方便地过滤掉重复的URL链接或内部交叉链接,提高爬行器的爬行速度和效率。而对于外部链接,则可以使用广度优先的策略在查重后直接加到URL列表中,对不同的外部网站URL启动不同的线程来获取该网站的资源。
    在本书中的化学化工主题搜索引擎Chen Engine中,爬行策略采用了广度优先的网页收集策略。使用广度优先策略的主要原因有三点:
    (1)首页重要的网页往往离种子比较近,例如我们打开新闻站的时候往往是最热门的新闻,随着不断的深入,所看到网页重要性越来越低。
    ……
展开
目录
前言
常用符号表

第1章 Internet搜索引擎概述
1.1 Internet搜索引擎简介
1.2 Internet搜索引擎的基本原理
1.3 Internet搜索引擎的相关技术
1.3.1 网络信息收集
1.3.2 网络信息索引
1.3.3 网络信息检索
1.3.4 网页重要性评价技术
1.3.5 自动分类技术
1.3.6 个性化技术
1.4 本书研究背景及内容
1.4.1 本书研究背景
1.4.2 本书研究内容

第2章 Internet主题搜索引擎的总体设计
2.1 Internet主题搜索引擎概述
2.2 Internet主题搜索引擎的目标
2.3 Internet主题搜索引擎的总体设计
2.4 Internet主题搜索引擎的基本模块
2.4.1 爬行
2.4.2 索引
2.4.3 检索
2.4.4 排序
2.4.5 自动分类
2.4.6 个性化检索
2.5 本章小结

第3章 Internet主题搜索引擎的信息收集和索引
3.1 Internet主题搜索引擎的收集策略
3.1.1 爬行器的基本概念
3.1.2 爬行器的访问策略
3.1.3 主题搜索引擎爬行器的设计和实现
3.2 Internet主题搜索引擎的索引策略
3.2.1 索引器的基本概念
3.2.2 主题搜索引擎索引器的设计和实现
3.3 本章小结

第4章 Internet主题搜索引擎的检索和排序
4.1 基于倒排索引的关键词检索
4.1.1 检索策略
4.1.2 检索的基本功能和实现
4.2 基于网络链接结构的网页评价和排序
4.2.1 PageRank算法的实现
4.2.2 基本排序方法
4.3 Internet主题搜索引擎的基本检索功能和相关界面
4.3.1 基本检索
4.3.2 使用偏好设置
4.3.3 高级检索
4.3.4 结果显示
4.4 本章小结

第5章 专业信息的自动分类
5.1 自动分类算法的研究
5.1.1 自动分类算法
5.1.2 特征词提取方法
5.1.3 自动分类的评价标准
5.1.4 自动分类算法的比较
5.2 专业网络信息的中英文自动分类
5.2.1 专业词典
5.2.2 网页编码方式的检测和整合
5.2.3 基于专业词典的中英文自动分类方法
5.2.4 数据集及评价标准
5.2.5 测试结果及分析
5.3 Internet主题搜索引擎中专业信息的中英文自动分类
5.3.1 网页资源的自动分类
5.3.2 分类结果和检索结果的整合
5.3.3 分类结果显示界面
5.4 本章小结

第6章 Internet主题搜索引擎的个性化检索
6.1 个性化检索概述
6.1.1 用户兴趣信息的收集
6.1.2 用户兴趣模型的建立
6.1.3 用户兴趣模型的使用
6.1.4 个性化检索的评价
6.2 基于用户兴趣模型的个性化检索策略
6.2.1 用户个性化信息的收集
6.2.2 用户兴趣模型的建立
6.3 Internet主题搜索引擎的个性化检索
6.4 本章小结

第7章 Internet主题搜索引擎的展望
附录A 英文停用词表
附录B Reuters-21578数据集的分类体系
附录C 化学学科分类体系
附录D ChemEngine的查询语法规则
参考文献
后记
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证