第一章绪论
随着现代信息技术,特别是多媒体技术和网络技术的迅速发展,多媒体信息的数据量急剧增多,但由于缺乏有效的多媒体检索技术,人们难以充分有效地利用这些海量资源。例如,人们知道巨大的网络信息海洋中有自己需要的歌曲和电影,但却不知道它们到底在哪里。因此,如何在浩如烟海的数据中快速准确地挑选出感兴趣的信息,对于充分利用不断积累的信息资源具有极其重要的意义。
音频是一类重要的多媒体数据,包含大量信息,如何从众多音频资料中检索出需要的信息是一个迫切需要解决的问题,具有非常重要的研究价值。
1.1基于内容的音频检索技术概述
对声音进行数字化处理和保存得到的结果称为音频。音频媒体是除视觉媒体外最重要的媒体,占总信息量的20%左右。音频信息按内容可以分成语音类和非语音类。语音是人类发出的含语义内容的声音,含有词字、语法等语素,是一种高度抽象的概念交流媒体。非语音包括音乐、音效、非规则声音等,其中音乐是人声和(或)乐器等声响配合构成的一种声音,具有节奏、旋律或和声等语义要素。音效是由声音所制造的效果,是指为增进场面的真实感、气氛或戏剧信息,而加于声带上的杂音或声音。非规则声音则是指没有规律的声音。我们能够听见的音频频率范围是20Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。
从大量音频文件中查找想要的音频片段就是音频检索,目前音频检索主要分为基于文本关键词的检索和基于音频内容的检索。基于文本关键词的检索主要是采用文件名、文件大小和文件属性等已知的或人工标注的信息进行检索,目前已经发展得非常成熟,已经熟悉的如Google、Baidu和Yahoo等搜索引擎采用的就是这种技术。由于已知的属性和标注的信息有限,不能表示音频所有内容,因此基于内容的音频检索(content based audio retrieval,CBAR)研究应运而生。
基于内容的音频检索是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。它主要是研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现基于内容的音频信息检索。它涉及多方面领域的知识,包括数字信号、模式识别、统计学习、神经网络和语音识别等。
1.1.1基于内容的音频检索意义
目前,互联网上主要的音频信息有语音、音乐和结合语音音乐的音频文件等。对于语音,人们有时想找讲述特定内容或某个特定人的讲话部分。对于音乐,人们总是想找到自己喜欢的旋律或情感的音乐。对于语音和音乐的结合体,如广播等音频数据,其中包含了广告、天气预报、主持人主题新闻和新闻详细报告等不同部分。这些部分往往是混合在一起的,不同的人对这些不同部分偏好不同,如果能够将音频按类别分类,可以满足人们对广播新闻进行不同层次需要的检索。同时,像图像和视频一样,人们对相似音频例子的检索需求也很大,总是想从互联网中找到自己需要的音频例子。例如,有些人想找相似的“枪声”,有些人想找相似的“鼓掌声”等。基于内容的音频检索为这些音频媒体检索需求提供了一个新思路,是一种更智能的检索方式。
基于内容的音频检索技术有着广泛的应用前景。
① 它是音频信息搜索引擎的关键技术,用户可通过该技术快速获取所需的信息资源,还可以根据音频信息的内容实现更加灵活的信息搜索策略。
② 它的实现可对音视频点播和网上电视节目等媒体中的音频信息进行实时检索、审查和有效监控,可应用于市场调查、网络管理、信息安全等诸多领域。
③ 它可用于监听,如用声音辅助监测犯罪事件和在医院里监视小孩喊叫、心脏跳动等。陈斯中等[1]将音频多普勒信号的多种参数综合起来用于对孕妇脐动脉血流的诊断,力图准确地判别出胎儿生长发育中存在的异常。
④ 它可用于各种数字音频产品的版权保护,如音乐的版权保护,即搜索未经授权的使用等。
⑤ 它在音频信息分类与统计技术的研究中扮演重要的角色。例如,广播电视新闻节目、学术会议的录音报告、数字图书馆等内容中包含着大量的语音、音乐等信息,使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索,更好地利用这些资源。
1.1.2基于内容的音频检索概述
基于内容的音频检索需要经过特征提取、音频分割、音频识别、音频分类和索引检索等步骤。它是继基于内容的图像检索之后发展起来的一个新兴研究方向,近年来,已成为国内外研究的热点问题之一,引起了各国众多研究机构和学者的广泛重视。所以,音频信息检索技术已经成为信息检索技术的研究重点之一。
从整体上看,音频内容可划分成三个等级,即最底层的物理样本级、中间层的声学特征级和最高层的语义级,如图11所示。在物理样本级,音频内容是以媒体流的形式存在,包含原始音频数据和注册数据,如采样频率、量化精度和压缩编码方法等。中间层是声学特征级,声学特征是从音频数据中自动抽取的,可以分为物理特征和感知特征。物理特征包括音频的基频、幅度和共振峰结构等。感知特征表达用户对音频的感知,如音调、响度和音色等。感知特征一般都与某些物理特征之间存在一定的联系。最高层是语义级,是音频内容和音频对象的概念描述。具体来说,在这个级别上,音频的内容可以是语音识别、辨别后的结果(文本)、音乐旋律和叙事说明等。
图1.1音频内容的抽象层次
在大量、形式多样的音频数据中,如何能够自动、准确和快速地查找到感兴趣的内容,实现基于内容的音频信息检索,是一个既迫切又具有挑战性的研究课题。由于起步晚、数据复杂、研究难度大等原因,音频信息检索技术和文本检索技术相比仍存在很大差距,还有大量问题亟须解决。
1.2基于内容的音频检索发展
基于内容的音频信息检索技术的研究工作是从20世纪90年代中后期开始的[2,3]。近年来,它已成为国内外研究的热点问题之一,引起了众多研究机构和学者的广泛重视,如卡内基梅隆大学、马里兰大学、麻省理工学院、康奈尔大学、南加州大学,以及剑桥大学等都对音频信息检索做了大量的研究工作,取得了许多研究成果。这个研究领域中比较重要的期刊和会议包括IEEE Transaction on Speech and Audio Processing,IEEE Transaction on Pattern Analysis and Machine Intelligence,IEEE Transaction on Multimedia,IEEE Transaction on Signal Processing,IEEE International Conference on Acoustics、Speech and Signal Processing (ICASSP),IEEE International Conference on Multimedia and Expo(ICME)和International Symposium on Music Information Retrieval (ISMIR)等。
国外研究机构对音频检索进行了多方面的研究。Muscle Fish[4]是一个商业化的基于音频感知特征的音频检索引擎。卡内基梅隆大学的Informedia项目[5]结合语音识别、视频分析和文本检索技术支持视频广播的检索。剑桥大学的VMR(视频邮件检索)小组利用基于网格的词组发现技术检索视频邮件中的消息。马里兰大学的Voice Graph[6,7]结合基于内容和基于说话人的查询,检索已知的说话人和词语,并设计了一种音频图示查询接口。Speech Skimmer[8]是一种音频交互的接口,以层次结构构造出音频文档的“鱼饵”视图。
国内在这方面的研究也很多,李国辉等[9]开发的一套基于内容的音频信息检索与分类系统——ARS系统。中国科学院声学研究所、上海交通大学、北京大学、微软亚洲研究院、浙江大学、西北大学和北京师范大学等都对音频中的音乐检索做了大量的研究。
音频处理和检索是与信号处理、人感知心理研究和模式识别等学科相关的研究领域,其面临的挑战很多。对音频识别及检索的研究主要可分为传统的元数据检索方式、音频分类方法研究和基于内容的音频检索。
1.2.1基于元数据检索的研究现状
元数据被认为是关于数据的数据,在图书情报界还包括传统的机读目录格式。音乐元数据方案是从数字音乐信息的外部特征入手的方案。目前国际上出现过多个音乐元数据的研究机构和相关项目,包括国际音乐元数据计划工作小组、MusicBrainz元数据计划、美国弗吉尼亚大学音乐表示文献类型定义(document type definetion,DTD)和Musicat DTD、北京大学中文元数据标准框架等。
Pinto等[10]详细描述了IEEE PAR1599 (MX)定义的一种采用XML实现对音乐、音频、视频进行建模表示的标准。将元数据嵌入相关模型,通过一种新颖的音乐信息检索对象中的结构层次表达音乐和音频的语义信息。
采用元数据形式的音频和音乐信息检索主要依靠关键字符或对文件的外部标注实现,也可通过导航形式实现对特定类型音乐文件的检索。目前基于元数据形式的音频、音乐检索仍然是主流检索形式,但多样化的检索需求和超大规模音乐数据库的增长迫切需要一种具有更高自动化程度和智能程度的自然检索方式,因此基于内容的音乐检索研究逐步展开。
1.2.2音频分类研究现状
常规的音频分类方法往往通过外部标注实现,特别是音乐文件分类,主要通过乐曲风格分类、艺术家分类、专辑分类等音乐分类方式。对于飞速增长的海量音乐数据,这些分类方式的局限性逐渐凸显出来,已经越来越难以满足用户检索的需求。音乐索引和检索需要新的技术手段来满足用户需求。
基于内容的音频分类主要是针对音频媒体库,采用分析音频文件的声学特征方法对其划定类别。不同的研究课题对音频分类体系的设计也各不相同,目前互联网上主要的音频信息有音乐、语音、结合音乐和语音的音频文件等。对于音乐,人们可能有不同的乐曲类别喜好,通过选择不同的音乐风格,实现对特定种类乐曲的检索。
音频分类研究的一项重要课题是音乐文件的分类。对音乐文件的分类可分为两个体系,一个是按照音乐流派或者乐曲风格,一个是按照音乐的情感类型。
根据乐曲风格对音乐数据进行归类,将其划归到不同的音乐流派,即摇滚、古典、乡村、爵士、民谣和流行等。实现流派分类主要依靠提取重复乐句的表现模式。按照类别建立数据库索引,计算各个类别之间的相关系数,通过智能接口分析用户偏爱的音乐分类,优先匹配该类数据,然后按照相关性由高到低依次匹配,提高检索速率。
Reed等[11]提出了一种使用声学特征的MIR数据库设计方法,并分析音乐内在语义特征,使用LSA和文件聚类技术将音乐按照流派将歌曲分为摇滚、流行摇滚、蓝调音乐、说唱音乐和乡村音乐,实现了特定流派的曲目检索。
日本国家高级工业科学和技术研究所的Fujihara等[12]提出了一种通过歌唱声音的音色特征实现对具有某种音色的一类音乐的检索。开展了特征提取、关键帧确定、相似性计算等步骤,实验结果表明文中所述方法能够获得比Mel频率倒谱系数(mel frequency cepstrum coefficient,MFCC)更优良的性能。
Turnbull等[13]将语义标注技术应用于音乐检索,首先收集了1700个描述约500个不同乐曲类型的关键词,并使用这些词语和音频特征训练高斯混合模型(gaussian mixture model,GMM),形成可以通过关键字标记和检索相应类型乐曲的原型系统,实验表明该方法具有较高的准确度。
Mandel等[14]采用多实例学习算法训练分类器miSVM与MILES,实现对不同类型音频的分析、归类,实验证明前者具有更好的分类效果。
音乐是一种表现情感的优雅艺术,情感被认为是音乐的本质性特征[15,16]。现代心理学研究表明,音乐以声波振动的非语义性组织结构与人类的情感和意志活动有直接同构对应的关系。
这种同构关系为音乐以类比或比拟方式多方面细致入微地模拟和刻画人的情感活动提供了各种可能性[17,18]。于是,音乐情感的自动识别和分类技术已开始被视为相关领域音乐信息检索的一种有效手段,并
展开