信阅平台

作者简介

何靖，2011年毕业于北京大学计算机科学技术系，获博士学位，曾在美国伊利诺伊大学香槟分校计算机系进行为期一年的学术访问，现在加拿大蒙特利尔大学计算机系从事博士后研究。从2004年开始从事搜索引擎相关领域的工作，主要研究方向是搜索引擎的评价方法和搜索引擎日志挖掘技术。曾参加核高基项目和多个国家自然科学基金项目的研究工作，并在SIGIR，CIKM，AIRS等搜索引擎相关的学术会议上交流多篇学术论文。
李晓明，北京大学计算机科学技术系教授，网络与信息系统研究所所长。从1999年开始从事与搜索引擎有关的研究与教学工作，主持开发了互联网信息搜索引擎--“天网搜索”，出版了《搜索引擎：原理、技术与系统》（科学出版社，2005）。2001年，提出了收集存储并系统研究中国网页历史信息的理念，发起并主持建设了“中国网络信息博物馆”。出版《计算机网络与互联网》（机械工业出版社，2009）和《计算机系统平台》（清华大学出版社，2009）教材，译著《万维网的定律》（北京大学出版社，2009）和《网络、群体与市场》（清华大学出版社，2011年）。

展开

内容介绍

《搜索引擎效果评测：基于用户点击日志分析的方法与技术》主要介绍评估搜索引擎质量的方法与技术。评估搜索引擎质量的技术通常可分为三类：基于Cranfield范式的评测方法、基于用户研究的评价方法和基于用户隐反馈的评价方法。其中，基于隐反馈的评价方法因其自动性和准确性，得到学术界和工业界越来越多研究者的关注。在用户隐反馈中，最容易获取、使用最广泛的是用户的点击行为，它们可以被搜索引擎自动收集起来，进而被深入分析。《搜索引擎效果评测：基于用户点击日志分析的方法与技术》着重介绍基于用户点击日志分析的搜索引擎评价方法。
《搜索引擎效果评测：基于用户点击日志分析的方法与技术》虽然为学术专著，但文风流畅，语句通俗易懂，在一些难点上一般都给予了必要的铺垫，因而不仅适合已在搜索引擎领域从事研究和开发的技术人员参阅，还适合作为希望进入该领域研究生的入门教材，也可以作为现代信息检索技术课程的教学参考书。

展开

精彩书摘

    1.7.1多样性和新颖性
    从以上两个例子中可以看出，搜索结果中的文档，不仅应该和查询是相关的，而且这些文档之间的关系，对于搜索结果的质量也是有影响的。对于某些查询串，它具有一种以上的含义解释，这样的查询串被称为有歧义（ambiguous）的查询（如例1-5中的“java”）。不同的用户在提交这样的查询串的时候，对它的理解是不同的。在不知道某个特定的用户对这个查询串的理解的时候，搜索引擎应该做的是尽可能地在靠前的位置展示各种解释下的相关结果。只有这样，才能保证无论这个特定用户持有哪种理解，他都能够在比较靠前的位置找到满足他信息需求的文档结果。这种在靠前位置展示一个查询串的各种解释的文档序列，就被认为是一个具有多样性的结果序列。多样性对于一些查询串，虽然它背后的信息需求是比较清楚的，但是，为了满足这样的一个信息需求，可能需要多种信息。譬如例1-6中的查询串“单反报价”，用户提交这个查询的意图比较明显，就是为了了解单反相机的报价。但是单反相机有很多种，所以结果中也应该包含各种品牌、各种型号的单反相机的报价。只有这样，才能让用户看到比较全面的报价情况。一个结果文档序列，如果能在靠前位置展示多种类型的信息，满足查询背后的信息需求，这个文档序列也被认为是比较多样化的序列。另外，如果结果序列中的某一个文档已经包含了一个品牌一个型号的相机的报价信息，后续的文档就应该尽量不再包含这一信息，这样的话用户就不会浪费时间来查看重复的信息了。这种不包含重复信息的文档序列，被认为是一个比较具有新颖性的文档序列。根据以上的讨论，可以发现，文档序列的多样性和新颖性，也是衡量文档序列好坏的一个重要标准。多样性和新颖性，这是两个既有联系，也有差异的概念。所谓查询结果的多样性，本质上是由查询背后的信息需求所决定的。如果一个信息需求是导航型的（如找新浪主页），相关文档是一个特定的网站主页，或者是信息需求是一个非常精确的问题（如珠穆朗玛峰的海拔高度是多少），所需的信息是一个确切的事实性答案，那么回答这个信息需求的文档序列就没有多样性而言，只需要能够找到相关的主页或者事实类信息就可以了。
    如果一个查询比较模糊，它含有多种解释，不同信息需求的人都是使用这个查询串，或者为了满足这个查询背后的信息需求需要多种信息，那么这个查询就要求有多样化的结果。对应例1-5和例1-6，分别应该出现多种“java”解释的相关文档和多种单反相机的报价。
    ……

展开

第1章搜索引擎评价技术
1.1 目标、角度和方法
1.2 符号定义
1.3 Cranfield范式评价方法
1.4 评测指标
1.4.1 二值相关性指标
1.4.2 多值相关性指标
1.4.3 偏好性指标
1.4.4 分数综合方法
1.4.5 系统比较
1.4.6 指标分析
1.5 评测集
1.6 不完整的评测集
1.6.1 文档池方法
1.6.2 抽样方法
1.6.3 最小标注集方法
1.7 相关性之外的考虑
1.7.1 多样性和新颖性
1.7.2 评测方法
1.7.3 多样性指标
1.7.4 新颖性指标
1.7.5 归一化因子：一个NP难问题
1.8 Cranfield评测方法遇到的困难
1.9 用户研究
1.9.1 用户研究的指标
1.9.2 用户研究的顺序性
1.9.3 用户研究和Cranfield范式：比较和关联
1.10 搜索引擎的效率
1.10.1 在线指标和离线指标
1.10.2 吞吐率和响应时间
1.11 搜索引擎的界面评价
1.12 可检索性评价
1.13 小结
第2章搜索引擎用户隐反馈建模
2.1 用户隐反馈的分类
2.2 用户点击行为
2.2.1 位置偏差
2.2.2 环境质量偏差
2.2.3 展示信息偏差
2.3 从点击行为中提取偏好关系
2.3.1 单用户点击行为中蕴涵的偏好关系
2.3.2 多次查询点击的融合
2.4 相关性标注
2.4.1 从偏好关系到相关性标注
2.4.2 监督学习获得相关性标注
2.5 用户行为建模：统计点击模型
2.5.1 用户搜索行为流程
2.5.2 用户点击行为
2.5.3 用户查看行为
2.5.4 用户点击模型
2.6 浏览时间
2.6.1 浏览时间和文档相关性
2.6.2 浏览时间模型
2.7 用户会话识别
2.7.1 超时会话切分
2.7.2 会话切换分类
2.7.3 全局的会话识别方法
2.8 其他用户隐反馈：眼动和鼠标移动
2.9 小结
第3章搜索引擎结果归并—比较方法
3.1 问题的提出
3.2 现有的归并—比较方法
3.2.1 平衡归并法
3.2.2 参赛队归并法
3.2.3 上述两种归并—比较方法的缺陷
3.3 归并—比较方法评测体系
3.3.1 评测归并—比较方法的指标
3.3.2 测试用例的产生
3.4 实验设置和评测结果
3.4.1 实验设计
3.4.2 结果
3.4.3 两种方法的缺点分析
3.5 基于位置信息的归并—比较方法
3.6 小结
第4章基于用户点击模型的搜索引擎评价方法
4.1 文档重排序框架
4.2 重排序函数
4.2.1 两种评价方式
4.2.2 影响重排序的因素
4.3 用户研究实验
4.3.1 实验设计
4.3.2 评测标准和指标
4.3.3 结果
4.4 TREC数据模拟实验和结果
4.4.1 基本的模拟评测
4.4.2 多情境分析
4.4.3 指标的影响
4.4.4 点击模型的影响
4.5 小结
第5章有效时间比：一种新的搜索引擎评价指标
5.1 有效时间比的定义
5.1.1 精度：有效时间比的一种实现形式
5.1.2 包含文档展示信息的搜索引擎评价指标：有效时间比
5.2 有效时间比的性质
5.3 实验设置
5.4 实验结果和讨论
5.4.1 测试指标
5.4.2 基本结果
5.4.3 开放类问题和封闭类问题
5.5 小结
附录一个基于归并比较的元搜索系统
参考文献
后记

展开