搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
智能检索技术
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787030253286
  • 作      者:
    陆建江[等]编著
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2009
收藏
编辑推荐
    智能检索技术是国内外学术界研究的热点,《智能检索技术》吸取计算机科学与技术、模式识别与智能系统等多个学科的研究成果,系统地阐述了文本、图像和视频检索的理论方法和实现技术,并重点突出语义检索技术的最新研究成果。
展开
内容介绍
    《智能检索技术》系统地阐述了文本、图像和视频检索的理论方法和实现技术,并重点突出了本领域的最新研究成果。面对海量信息,信息的精确检索就像大海捞针一样困难。智能检索技术吸取多个学科的研究成果,力图通过对文本、图像和视频信息的智能处理,实现信息的精确检索。<br>    《智能检索技术》可作为高等院校计算机科学与技术、模式识别与智能系统等学科方向高年级本科生和研究生的教材,也可作为相关领域学生的参考书。
展开
精彩书摘
    第1章  文本检索技术<br>    1.3  文本预处理<br>    1.3.1  停用词删除<br>    我们知道如果一个词在某个文本中多次出现,那么这个词就很有可能与文本的主题密切相关。然而如果一个词在多个文本中出现,而且频率过高,那么它对文本的区别能力就非常低。一般地,在文档库的文本中出现频率超过80%的词对检索过程根本起不到作用。这部分词被称为停用词(stopword)。在选择构建索引的词时,停用词需要被过滤,以提高索引效率。一般地,冠词、介词、连词等都是停用词,实际检索系统都会设置一个停用词表。<br>    删除停用词可以大大缩小索引空间的大小,一般可以缩小40%左右。删除停用词的缺点是可能会影响检索系统的查准率,有的文本检索系统为了克服这一缺点采用全文索引,并不剔除停用词,对所有的词都建立索引。<br>    1.3.2  词干提取<br>    词干提取是为了解决英文检索中存在的问题而采取的操作。词于是指将词的词缀(前缀和后缀)删除后剩下的部分。例如单词“compete”是它的变形“competes”、“competitor”、“competition”、“competin9”和“competed”的词干。在英文检索中,如果用户输入的词是信息库中某个相关文本中词的一种变形,词的变形可以是该词的复数、动名词或者过去分词形式等,那么这些相关文本将被视作与查询无关的文本,这将大大影响召回率。为解决这个问题,在构建索引时,用词干来代替词干的所有变形。<br>    词干提取不仅在很大程度上提高召回率,改善信息检索的性能,同时由于词干的众多变形都由词干代替,用于构建索引的词数量也大大减少,索引空间也进一步缩小。<br>    目前,词干提取技术可以分为:词缀删除、表格查询、后续变形、N-连字。词缀删除技术比较直观、简单、有效。在词缀删除中,最重要的就是对词中后缀的删除,因为大多数词的变形是通过后缀来实现的。目前已经有多种关于词缀删除的算法,其中,Porter算法以其简单性和有效性而得到广泛应用。表格查询技术通过在表格中查找某个词的词干来实现,表格中的信息依赖于整个语言中词的词干,因此通常需要相当大的存储空问来存放表格,这就制约了表格查询技术的应用。后续变形技术主要是通过结构化语言的知识来确定词素的边界,这种技术比词缀删除技术复杂。N-连字技术判断单词中的字母是否连在一起,这一过程实际上是词条聚类的过程。
展开
目录
《智能科学技术著作丛书》序<br>前言<br>第1章 文本检索技术<br>1.1 基于索引的检索技术<br>1.2 文本提取<br>1.3 文本预处理<br>1.3.1 停用词删除<br>1.3.2 词干提取<br>1.3.3 索引词选择<br>1.3.4 建立词典<br>1.4 索引<br>1.5 文本检索模型<br>1.5.1 布尔模型<br>1.5.2 向量空间模型<br>1.5.3 概率论模型<br>1.5.4 PageRank模型<br>1.6 分布式搜索引擎<br>1.6.1 分布式元搜索引擎<br>1.6.2 散列式分布搜索引擎<br>1.6.3 局部遍历型搜索引擎<br>1.6.4 P2P分布式搜索引擎<br>参考文献<br><br>第2章 文本自动分词<br>2.1 基于字符串匹配的正向最大匹配算法<br>2.2 基于简码匹配的Hash分词算法<br>2.2.1 简码匹配方式<br>2.2.2 Hash分词算法<br>2.2.3 消歧融入切分过程<br>2.2.4 基于简码的Hash算法<br>2.2.5 平均匹配次数的理论分析<br>2.2.6 分词测试及结果<br>2.3 基于统计的分词方法<br>参考文献<br><br>第3章 概念语义空间<br>3.1 基于奇异值分解的潜在语义索引方法<br>3.2 基于非负矩阵分解的潜在语义索引方法<br>3.2.1 NMF问题的提出<br>3.2.2 目标函数<br>3.2.3 NMF方法的迭代规则<br>3.2.4 NMF的非唯一性<br>3.2.5 基于NMF的概念语义生成<br>3.2.6 其他NMF方法<br>3.3 NMF方法与SVD方法的比较<br>3.3.1 问题本质<br>3.3.2 概念语义向量的特点<br>3.3.3 概念语义向量的解释<br>3.3.4 NMF方法与SVD方法敏感性的比较<br>3.3.5 NMF方法与SVD方法检索性能的比较<br>参考文献<br><br>第4章 基于本体的文本检索技术<br>4.1 本体定义<br>4.2 描述逻辑<br>4.2.1 描述逻辑ALC<br>4.2.2 描述逻辑ALC的构造子扩展<br>4.3 本体语言<br>4.3.1 可扩展标记语言XML<br>4.3.2 资源描述框架RDF<br>4.3.3 本体语言OWL<br>4.4 基于本体的文本检索技术<br>4.4.1 本体构建<br>4.4.2 语义标注<br>4.4.3 语义查询<br>参考文献<br><br>第5章 基于内容的图像检索<br>5.1 基于内容的图像检索的原因<br>5.2 基于内容的图像检索概述<br>5.2.1 基于视觉特征的图像检索<br>5.2.2 基于对象类型的图像检索<br>5.2.3 基于抽象属性的图像检索<br>5.3 web图像检索<br>参考文献<br><br>第6章 MPEG-7标准中图像的视觉特征<br>6.1 图像的颜色特征<br>6.1.1 颜色空间<br>6.1.2 颜色量化<br>6.1.3 主颜色<br>6.1.4 可伸缩颜色<br>6.1.5 颜色布局<br>6.1.6 颜色结构<br>6.2 图像的纹理特征<br>6.2.1 同质纹理<br>6.2.2 纹理浏览<br>6.2.3 边缘直方图<br>6.3 图像的形状特征<br>6.3.1 基于区域的形状<br>6.3.2 基于轮廓的形状<br>参考文献<br><br>第7章 图像的局部特征<br>7.1 图像兴趣点和兴趣区域的发现器<br>7.1.1 Harris兴趣点发现器<br>7.1.2 Harris-Laplace兴趣区域发现器<br>7.1.3 Hessian_Laplace兴趣区域发现器<br>7.1.4 高斯差分金字塔<br>7.2 尺度不变特征变换SIFT<br>7.2.1 SI丌特征的提取<br>7.2.2 SIFT兴趣点的匹配<br>7.2.3 与SIFT有关的其他局部特征<br>7.3 方向可调滤波器<br>7.4 形状上下文<br>7.5 矩不变量<br>参考文献<br><br>第8章 基于视觉特征的图像检索技术<br>8.1 图像分割技术<br>8.1.1 图像分割概念<br>8.1.2 图像分割算法<br>8.1.3 分割方法存在的问题<br>8.2 相似性度量<br>8.2.1 几何模型<br>8.2.2 相关计算模型<br>8.2.3 关联系数模型<br>8.3 索引<br>8.3.1 高维索引方法<br>8.3.2 降维方法<br>8.3.3 近似最近邻方法<br>8.3.4 单一维空间映射方法<br>8.3.5 多重空间填充曲线方法<br>8.3.6 基于过滤的方法<br>8.4 相关反馈技术<br>8.5 图像检索系统性能的评价准则<br>8.6 基于视觉特征的图像检索系统<br>参考文献<br><br>第9章 基于语义的图像检索技术<br>9.1 图像标注技术的概况<br>9.2 图像标注系统的工作原理<br>9.3 基于MPEG7的图像标注技术<br>9.3.1 SVM分类器<br>9.3.2 基于MPEG-7的图像标注技术<br>9.4 基于特征选择的图像标注技术<br>9.4.1 遗传算法的基本思想<br>9.4.2 基于二进制编码遗传算法的最优特征子集选择方法<br>9.4.3 基于双编码遗传算法的最优加权特征子集选择方法<br><br>第10章 Web图像的检索技术<br>第11章 基于内容的视频检索技术<br>第12章 视频的结构化技术<br>第13章 语音识别技术<br>第14章 视频的标注技术
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证