《视频大数据智慧计算方法》:
第1章 视频大数据智慧计算绪论
1.1 视频大数据的特点
视频大数据有三大特点:数据量大、结构复杂、全数据,如图1.1所示。
图1.1视频大数据的特点
视频大数据的第一个特点是数据量大,而且视频大数据的数据量增长速度非常快。每天有无数的人在向优酷等在线视频网站上传各种视频,每天都有无数的监控器、摄像头在录制各种各样的实时视频,每天电视台、电影院都在播放着不断更新的视频 。我们的世界是可视的、动态的,整个世界最原始的状态就是一个连续不断的、将会延续无数亿年的视频。
随着视频录制设备的普及,特别是智能手机也具备了录制视频的能力,现在已经进入视频大数据的时代。人们喜欢录制视频来记录生活中的点点滴滴,学校喜欢用视频来记录教师上课的实况,政府喜欢用视频来监控社会的动态。一个文本文件或图像文件或声音文件,其数据量都一般在M级,但一个视频文件数据量一般都在G级,而有的高清视频能达到T级。每个视频都含有非常丰富的信息,都要占用大量的存储空间,而视频的数量又非常庞大,这就使得视频成为各种格式的数据中数据量最为突出的大数据。
同时,随着互联网特别是移动互联网的发展,越来越多的视频被上传到网上进行分享、转码、加工、重组,从而使得从无数的原始视频中,又衍生出更多数据量更大的目标视频,这又进一步增加了视频大数据的数据量。
视频大数据的第二个特点是结构复杂。视频数据相对于文本、图像、声音这些单一的数据类型而言,是结构最为复杂的一种数据。视频大数据是一种集图像、声音、文字于一体的大数据,也是一种集时间维、空间维、本性维于一体的大数据。正是因为其组成成分的复杂性,以及不同维之间的关联性,使得其大数据的特性更为突出。正是由于视频结构的复杂性,所以以不同的方式来组织视频数据就形成了视频的不同编码格式和封装格式。视频的编码格式和封装格式之多远远超过了文本、图像、声音这些类型的文件数据,这也从一个侧面反映了视频结构的复杂性。不但视频内部的结构复杂,由于视频转码、视频加工、视频重组、视频挖掘等技术的应用,使得不同视频数据之间也存在着千丝万缕的联系,形成了视频数据之间结构的复杂性。
视频大数据的第三个特点是全数据。视频所见即所得,是对现实世界的真实记录和复制,这一点不同于文本数据。因为文本数据是人类或人类程序对客观世界的记录,其中有人类对客观世界的抽象及取舍。全数据在数据的维度上没有任何损失,所以视频大数据的挖掘价值更大。视频大数据相对于文本等类型的大数据而言,其全数据性更为明显。当然,这也是相对的,因为视频的分辨率是有限的,而且大部分视频不是三维的、更不是全息的,因此视频也无法完全地复制现实,所以说视频大数据只是相对的全数据,但随着视频技术、存储技术的发展,视频的分辨率会越来越高,而且会朝着三维、全息的方向发展,所以视频大数据的全数据性会越来越高。
1.2视频大数据对智慧计算的需求
大数据的价值在于其中所蕴含的知识,而大数据中的知识只有依靠智慧计算才能充分地发现和利用。因为大数据不同于传统的数据,大数据是未经采样和加工的全数据,因此其数据质量远远低于传统数据,而数据复杂性远远高于传统数据,这就对处理数据的计算方法提出了更高的要求,因此需要一种针对大数据的智慧计算方法。
特别是视频大数据对智慧计算有着更高的要求,因为视频大数据是最为难以处理的大数据类型之一。传统处理大数据的框架如hadoop,比较擅长于处理文本大数据,但在处理视频大数据时就有些力不从心,因为视频大数据的数据内部、数据之间的关系非常复杂,同时其数据量也不是文本大数据可以同日而语的。所以急需研究专门针对视频大数据的更为智慧的计算方法,来针对视频大数据的结构复杂性、海量性、全数据性进行高效的处理,得到预期的结果和效果。
从应用的角度来看,视频大数据对智慧计算的需求包括七大需求:视频大数据识别的需求、视频大数据重建的需求、视频大数据重组的需求、视频大数据转码的需求、视频大数据监控的需求、视频大数据审查的需求和视频大数据处理的需求,如图1.2所示。
图1.2视频大数据对智慧计算的需求视频大数据对智慧计算的需求,第一体现在对视频大数据识别的需求。因为视频如果不被识别,则毫无意义,但视频识别对计算机来说不是一件很容易的事情,虽然我们人类每天都在看电影、看电视,识别视频对于我们人类来说,非常容易。因此,在视频识别这一方面,计算机当前发展水平还远远不如人脑。但视频大数据的海量数据性,使得无法完全由人工来进行识别,所以急需一种更为智慧的计算来对视频进行自动高效的识别。
视频大数据对智慧计算的需求,第二体现在对视频大数据重建的需求。视频重建是基于视频识别所得到知识所进行的创造性活动。视频本身是源于现实,而视频重建的结果是对现实的重塑。因此,视频重建是对视频的有效利用。但视频重建比视频识别对计算机而言更为困难,因为视频重建是一种创造性的活动,而计算机最不擅长做的事情就是创造性的活动。所以当前视频重建一般都是人工来做的。例如,根据动画形象进行三维建模,都是由3D模型设计师进行手工设计。但是当面临视频大数据时,如果有大量的视频需要被重建,则无法完全由人工来进行重建,所以急需一种更为智慧的计算来对视频进行自动高效的重建。
视频大数据对智慧计算的需求,第三体现在对视频大数据重组的需求。因为视频是一个图像、声音、文字的时间序列,这个序列可以分片,可以合并,统称为重组。现实生活中对视频重组的需求是巨大而迫切的。例如,不同的人可能关心不同视频中的某个主题和片段,那么就需要把这些主题和片段切分出来并进行合并后交付给不同的用户。这个例子讲的是用户的需求。还有一种更大的需求,是对视频大数据处理的需求,因为为了加快大视频的处理速度,则需要采用分而治之的云计算模式进行处理,所以需要对视频进行分片后再合并。但视频的分片、合并并不像文本那么容易和简单,如果采用人工交互式地进行分片,那么就会影响对视频大数据的整体处理的自动化,因此急需一种更为智慧的计算来对视频进行自动高效的分片。
视频大数据对智慧计算的需求,第四体现在对视频大数据转码的需求。由于视频结构及其应用的复杂性,所以以不同的方式来组织视频数据就形成了视频的不同编码格式和封装格式。视频的编码格式和封装格式之多远远地超过了文本、图像、声音这些类型的文件数据。特别是随着电视网、电脑网、手机网的互联互通,使得三网之间视频格式的互转变得非常频繁和泛化,转码可以使得视频大数据在三网之间无碍地流通,这就使得三网上的视频大数据对转码的需求与日俱增。当人们用不同手机、在不同带宽下观看或下载同一个视频源时,所得到的视频的编码格式和封装格式可能都会不同,在这些时候,都有转码的发生。但随着视频大数据的数据量的激增,传统上依靠改进转码硬件性能及转码串行算法的途径已经无法满足需求了,其结果必然会影响视频下载和在线播放的速度。因此急需一种更为智慧的计算来对视频进行自动高效的转码。
视频大数据对智慧计算的需求,第五体现在对视频大数据监控的需求。高速公路上、个人家庭中、公司中、超市中、ATM机旁等地方,监控摄像头无处不在,但这些“眼睛”真的在发挥作用吗?大部分的监控摄像头只能起到事后取证的作用,而无法像人眼那样看到异常立即报警。当前视频监控大数据没有做到实时的监控和处理,也没有做到事后的海量挖掘和分析。因此急需一种更为智慧的计算来对视频进行自动高效的监控。
视频大数据对智慧计算的需求,第六体现在对视频大数据审查的需求。现在网络上黄色视频、暴力视频严重危害了未成年人的身心健康,如果靠人工网络警察去一个个地看、一个个地查,总是有漏网之鱼的视频,因为视频的数量实在太大了,而且每一个视频人工也难以从头看到尾,即使从头看到尾也难以对非法内容毫无遗漏。因此迫切需要一种更为智慧的计算来对视频进行自动高效的审查。
视频大数据对智慧计算还有很多其他需求,统称为对视频大数据处理的需求,包括对视频分类的需求、对视频推荐的需求、对视频拆条的需求等。这些需求也随着视频大数据的数据量的攀升而越来越需要一种更为智慧的计算来对视频进行自动高效的处理。
1.3视频大数据智慧计算的分类
视频大数据智慧计算方法,如果按照需求进行分类,则可以分为:视频大数据识别的方法、视频大数据重建的方法、视频大数据重组的方法、视频大数据转码的方法、视频大数据监控的方法、视频大数据审查的方法和视频大数据处理的方法,如图1.3所示。
图1.3视频大数据智慧计算方法按照需求的分类
但如果从结合视频大数据的时空性三个维度来分类,则视频大数据智慧计算可以分为:视频大数据空间智慧计算方法、视频大数据时间智慧计算方法、视频大数据时空智慧计算方法,如图1.4所示。这里没有提到本性维。因为本性维是最基本的维,不管是哪种类型的计算,本性维都默认存在并且参与其中,因为如果脱离了视频的本性来讨论视频的时间性、空间性和时空性是没有意义,“皮之不存,毛将焉附?” 图1.4视频大数据智慧计算方法按照维度的分类第2章视频大数据空间智慧计算方法第2章视频大数据空间智慧计算方法
如果不考虑时间维,则视频成为了一幅幅静止的图像,所以只考虑空间维的视频大数据实质上是图像大数据,所以视频大数据空间智慧计算方法实质上是图像大数据智慧计算方法。之所以要将视频大数据的空间维拿出来单独研究,是因为的确有不少视频实际应用(如视频大数据中图像的识别、重建)中只涉及视频的空间维,所以研究视频大数据空间智慧计算方法有其实际意义。将视频大数据的空间维拿出来单独研究的另一个原因是,只有将视频大数据的空间维(各幅图像)的智慧计算方法研究清楚了,才能与视频大数据的时间维(各帧)进行结合,从而为视频大数据的时空智慧计算方法奠定基础。
本章提出了使得视频空间计算更加智慧的方法,2.1节利用识别知识库,2.2节利用图像样本库,2.3节利用三维模型库,加上自动搜索和匹配的算法,使得视频空间计算(就是图像的识别重建)更加自动化、普适化、精准化,再加上并行计算,又可使之快速化,从而使得在视频空间计算方面,计算机更加接近人脑对图像的处理重建能力,因而更接近人的智慧。
2.1识别知识库下物体识别的方法
本方法提供一种基于识别知识库的识别方法,用于识别多个类型目标,所述识别方法包括:从关联索引表中寻找与兴趣目标最接近的预期目标样本;根据关联索引表调用相应的预期目标特征提取规则,并根据该特征提取规则确定匹配窗口;根据关联索引表调用相应的特征提取规则,由所述匹配窗口对待识别对象进行特征提取;调用对应的特征比较规则并调用关联的特征比较程序,根据所述特征比较程序将预期目标样本的特征与匹配窗口中的对象的特征进行比较,并将特征比较的结果记为相似度;根据所述相似度确定识别结果。本方法提供的基于识别知识库的识别方法,预先在识别知识库中存储若干类型目标样本,实现识别多个类型目标。
2.1.1现有物体识别方法的不足
现代信息处理技术的发展使得自动识别技术成为可能,比较常见的例子就是,将计算机信息处理技术应用到识别技术领域,使得无需人为操作从而实现自动化识别兴趣目标。
目前,自动识别方法有条码识别、IC卡识别、射频识别(RFID)、声音识别、视觉识别以及光学字符识别等。
识别的过程就是从对象中识别出目标,对所述对象中目标进行识别得到的结果被称为识别结果。
识别即是通过目标的特征将目标从对象中分离出来并判断出目标类型和目标属性的过程。识别的对象可以是图像、声音、视频、波谱、文本等中的一种类型或其混合。例如,识别一个人,可以同时识别他的语音(声音识别)、面部相貌(图像识别)。再如识别草,可以同时识别它的可见光谱(图像识别)和红外光谱(波谱识别)。识别的输入为对象,输出为目标。
样本,是指用于识别的参照目标,其一般预先存储在所述识别系统中的数据库(也称识别知识库)。
……
展开