《开发自己的搜索引擎:Lucene 2.0+Heritrix》是一本针对搜索引擎开发的书籍。通过学习本书,读者可以独立构建出一个企业级的搜索引擎网站。本书详细讲解了搜索引擎与信息检索基础,Lucene入门实例,Lucene索引的建立,使用Lucene进行搜索,排序,过滤和分页,Lucene的分析器,对Word、Excel和PDF格式文档的处理,Compass搜索引擎框架,Lucene分布式和Google Search API,爬虫Heritrix,HTMLParser,DWR等内容。最后综合使用所讲述的技术,构建了一个典型的垂直搜索系统,该系统具有很强的商业实用价值。
全书共分为14章,内容包括搜索引擎与信息检索基础,Lucene入门实例,Lucene索引的建立,使用Lucene构建搜索,Lucene的排序,Lucene的分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬虫Heritrix,综合实例之准备篇,综合实例之HTMLParser篇,综合实例之DWR篇,综合实例之Web编。
《开发自己的搜索引擎:Lucene 2.0+Heritrix》是一本介绍如何使用Lucene 2.0和Heritrix来构建搜索引擎的书。通过对相关API和源代码的分析,力求使读者在掌握应用的基础上能够深入其核心,自行扩展和开发相应组件,开发出更有创意的搜索引擎产品。
展开