搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
管理海量数据:压缩、索引和查询:compressing and indexing documents and images
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121219337
  • 作      者:
    (新)lan H. Witten,(澳)Alistair Moffat,(新)Timothy C. Bell著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2014
收藏
编辑推荐
  

  大数据时代,数据管理圣经!
  搜索界网络红人梁斌博士、原人民搜索专家杨青精心翻译修订!

 
    

海报:

  

  


  

展开
作者简介

  [美]Ian H.Witten ,[美]Alistair Moffat,[美]Timothy C.Bell,是南半球院校当中最权威最重要的专家,本书当中阐释了他们多项创新性研究。他们写过8本书,300多篇研究论文 ,也在许多国际性程序协会当中做过研究,包括 IEEE数据压缩协会,ACM数字图书馆,以及信息检索协会。

  杨青,毕业于清华大学计算机系,原人民搜索技术总监,参与网页搜索、新闻搜索等多个产品项目的研发工作,在搜索引擎上面有多年的实践经验。

  梁斌,清华大学计算机系博士研究生在读,在搜狗和金山软件等多个公司从事搜索引擎和内容推荐的研发工作,曾编著《走进搜索引擎》。

展开
内容介绍

                         《管理海量数据:压缩、索引和查询(第2版)(经典再现全新修订版)》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《管理海量数据--压缩、索引和查询(第2版)》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
  《管理海量数据:压缩、索引和查询(第2版)(经典再现全新修订版)》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。                    

展开
精彩书评

  ★Witten,Moffat和Bell的第二版中不仅仅有更新、更好的文本搜索算法,而且还有大量有关图像分析和图像文本处理的知识。如果你关心搜索引擎,你就会需要这本书,这是目前唯一能够细致入微到搜索引擎如何运作的各个细节的一本书籍。这本书不仅翔实而且可读性强,作者将顶尖的程序和完美的写作风格融为一炉。
  ——Michael Lesk,国家自然基金会

  ★对每个希望掌握大规模数据处理的从业人员来说,这本书是一本圣经。在Infoseek公司,我们要求每个搜索工程师阅读此书。作者的这项工作令人赞叹,他们已经把近5年内信息检索研究界最令人瞩目的成果写进了本书。
  ——Steve kirsch,Infoseek公司创始人

  ★能够包括压缩、文件组织、全文索引技术和文档管理系统,因此本书无疑是无以伦比的。学生,研究者和从业人员将会从本书中受益
  ——Bruce Croft,马萨诸塞大学智能信息检索中心主任

  ★快速响应和高效存储时超媒体研究者和开发者的基础技术,我强烈向大家推荐这本可读性强且发人深思的好书。
  ——Rob Aksycn, Knowledge Systems公司

展开
精彩书摘

  大多数的外部压缩方法可以归纳为两类,即符号方法(symbolwisemethod)和字典方法(dictionarymethod)。符号方法就是通过估计符号(常常是字符)的概率值来压缩文本,它在同一时间只对一个符号编码,如摩斯码,对最可能出现的符号使用较短的码字。字典方法通过使用“字典”中词条的索引替换单字或文本片段来实现压缩。既然采用特殊的编码表示所有的词汇,因此Braille盲文编码也是一种字典方法。
  符号方法通常基于哈夫曼编码或算术编码,主要的不同之处在于如何估计符号的概率。符号概率值估计得越准,压缩效果就越好。为了获得更好的压缩效果,概率估计常常要根据符号出现的上下文来进行。概率估计的工作叫做“建模”(modeling),而建立一个好的模型对于实现好的压缩效果是至关重要的。把概率转换为比特流(bitstream)以供传输的过程叫做“摩斯码”,编码这个概念很好理解,可用哈夫曼或算术编码的方法有效地实现。模型的建立是一种艺术,不会只有唯一的“最佳”方法。
  ……

展开
目录

第1章  概览
1.1  文档数据库(document databases)
1.2  压缩(compression)
1.3  索引(indexes)
1.4  文档索引
1.5  MG海量文档管理系统
第2章  文本压缩
2.1  模型
2.2  自适应模型
2.3  哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4  算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5  符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6  字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7  同步
创造同步点
自同步编码
2.8  性能比较
压缩性能
压缩速度
其他性能方面的考虑
第3章  索引
3.1  样本文档集合
3.2  倒排文件索引
3.3  压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4  索引压缩方法的效果
3.5  签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6  索引方法的比较
3.7  大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
第4章  查询
4.1  访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2  部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3  布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive Query)
4.4  信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5  检索效果评价
召回率和精确率
召回率——精确率曲线
TREC项目
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6  余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7  交互式检索
相关性反馈
概率模型
4.8  分布式检索
第5章  索引构造
计算模型
索引构造方法概览
5.1  基于内存的倒排
5.2  基于排序的倒排
5.3  索引压缩
压缩临时文件
多路归并
原地多路归并
5.4  压缩的内存内倒排
大内存倒排
基于字典的切分(Lexicon-based partitioning)
基于文本的切分
5.5  倒排方法的比较
5.6  构造签名文件和位图
5.7  动态文档集合
扩展文本(Expanding the text)
索引扩展(Expanding the index)
第6章  图像压缩
6.1  图像类型
6.2  CCITT二值图像的传真标准
6.3  二值图像的上下文压缩
上下文模型
二值上下文模型
“超视力”压缩(Clairvoyant compression)
6.4  JBIG:二值图像标准
分辨率降低(Resolution reduction)
模板和自适应模板
编码及概率估计
6.5  连续色调图像的无损压缩
GIF和PNG无损图像格式
FELICS:快速、有效且无损图像压缩系统
CALIC:基于上下文自适应无损图像解码器
JPEG-LS:无损图像压缩新标准
6.6  JPEG:连续色调图像标准
6.7  图像的递增传输
金字塔编码
金字塔编码的压缩
中位数聚合
误差模型
6.8  图像压缩技术总结
第7章  文本图像
7.1  文本图像压缩概念
7.2  有损压缩和无损压缩
7.3  标记抽取
跟踪标记的边界
清除图像中的标记
按自然阅读顺序排序标记
7.4  模板匹配
全局模板匹配
局部模板匹配
基于压缩的模板匹配
库模板筛法
评价模板匹配方法
7.5  从标记到符号
库构造
符号及其偏移量
7.6  编码文本图像分量

符号数
符号偏移
原始图像
7.7  效果:有损和无损的模式
7.8  系统考虑
7.9  JBIG2:图像文本压缩标准
第8章  混合图文
8.1  方向
用Hough变换检测直线
左侧留白查找
投影轮廓
从斜率直方图到文本谱
8.2  切分
自下向上的切分方法
自上向下的组合的切分方法
基于标记的切分
使用短文本字符串切分
利用文本句法切分
8.3  分类
第9章  系统实现
9.1  文本压缩
选择压缩模型
选择编码器
哈夫曼编码的限制
长度限制的编码
9.2  文本压缩效果
压缩有效性
解压速度
解压内存
动态文档集合
9.3  图像和文本图像
压缩二值图像
压缩灰度图像
压缩文本图像
9.4  构造索引
9.5  索引压缩
9.6  查询处理
布尔查询
排名查询
附录A  mg系统指南
A.1  安装MG系统
A.2  一个简单的存储和检索例子
A.3  数据库创建
A.4  对一个索引文档集合进行查询
A.5  非文本文件
A.6  图像压缩程序
附录B  新西兰图书馆
B.1  什么是NZDL
计算机科学报告(Computer Science Technical Reports)
其他文档集合
文档集合的发展
音频集合(audio collections)
音调索引(Melody Index)
B.2  NZDL是如何工作的
原始文档
搜索和索引
B.3  影响
参考文献

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证