《Lucene+nutch搜索引擎开发》适合对搜索引擎开发有兴趣的读者阅读,包括搜索引擎开发的初学者、高等院校、信息专业学生、从事搜索开发的程序设计人员等。入门:引导读者快速掌握(Lucene和nutch的使用方法);揭秘:深度剖析搜索引擎内核;实战:手把手带您构建企业级搜索引擎;推荐:Web开发专家强烈推荐。
互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。中文用户的搜索使用水平相对于西文用户目前仍然处于比较初级的阶段,而中文网站搜索功能的缺失也是一个重要的因素。
网站拥有了较多内容后,最先会考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心,这时,关键词检索的优势就体现出来了:
关键词检索可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户;
和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,从而大大提高信息的引用密度。
基于传统数据库的关键词检索由于性能问题让很多网站放弃了搜索功能,问题的解决归根结底还是需要一个全文引擎。而Lucene开源引擎的出现让这种原来被少数公司掌握的技术得到了迅速的普及,这里应该再次感谢引擎的核心贡献者Doug Cutting先生,同时也希望有更多的中文开发人员能积极投入:到Lucene的相关项目开发中去,尤其在中文和其他亚洲双字节语言处理方面的问题。
Lucene也是我学习的第一个Java程序,当初是通过jdb一行行dubug了解其中的原理和机制的,非常高兴有这样一本专门的参考书出现,它无疑会为开发人员了解并更快掌握全文检索技术节省大量的时间。
展开