事件追踪:麻省理工学院的研究人员们开发出了一种全新视频搜索,专门用来查找体育赛事视频中的关键镜头。这个系统将基于解说员语音解说词的文本搜索与视频中的可视要素搜索结合了起来。这种搜索视频的新方法可以帮助视频爱好者找到视频中的连续镜头。
最近网路上出现了一种新型可视搜索引擎服务,它可以自动快速浏览视频剪辑中的特定动作或者事件的镜头。据其开发者称,它引进了机器翻译中的一些技术,结果极大地提高了视频搜索的准确度。
麻省理工学院计算机科学家迈克尔弗莱施曼说,尽管可视搜索引擎技术取得了新的进展,但是精确视频搜索仍是一个尚未解决的难题,特别是在处理体育视频连续镜头时更是如此。他说:“新手是很难注意到界内球和界外球之间的差异的,对于机器来说几乎就不可能将它们区别开来。”
为了满足视频资源越来越多的需求,业界开发出了许多利用自动语言识别技术将语音转换成文本从而提高搜索准确度的顶尖系统。
弗莱施曼说,问题是,搜索词通常会在上下文中频繁出现。在各种体育赛事视频中,这种现象尤其明显。比如在棒球比赛中,不管场上情况如何,解说员会经常说到本垒打和其他一些事件。
为了解决这个问题,弗莱施曼和麻省理工学院CognitiveMachinesGroup工作组的德布罗伊开发出了一个新系统,它可以将搜索词与视频特征种类联系起来,而且不仅仅是视频中所提到的词语。弗莱施曼说:“我们收集了上千个小时的棒球比赛录像,然后根据各种特征比如有多少草地是可见的以及背景声音中是否有欢呼声等将所有的视频都自动进行编码。”
研究人员们利用机器学习语言分析了那些视频剪辑,通过摘录不同镜头下的不同特征组合以及发生的次序组合将各个独立的瞬间事件识别出来。例如,高飞球可以被描述为一系列与照相机摇高再摇低的序列,这在拍摄全场情景的时候也会发生。
然后搜索系统会试着通过它们概率分布情况将这些事件映射到一些描述文本的词汇上。据弗莱施曼说,这项技术常用于自动机器翻译中,虽然两种语言中对应的词汇的次序和频率可能完全不同,但是机器翻译技术经常将一种语言中的词汇映射到另一种语言中对应的词汇上。弗莱施曼说,从这个角度来说,就是将视频翻译成音频。这个系统会根于解说员的解说词努力找出关于视频中各种事件的最好翻译。
一旦某段新视频剪辑按照这种模式进行编码,系统就会在匹配的模式和成语中寻找同时发生的事件。弗莱施曼说:“通过这种方式,系统就可以在比赛中找到各个事件的相关事件,而无需人工对特定事件进行清晰地描述。”
由于没有一个判断的标准,因此很难精确说明这个系统的准确度有多高。虽然如此,弗莱施曼和罗伊通过六场棒球比赛录像进行了大量的试验,证明这个系统的准确度还是很高的。仅仅使用可视搜索的准确度是很低的,仅仅使用音频搜索也是如此。弗莱施曼说:“然而,当你将两种信息源结合起来使用,我们发现系统的性能比单独使用任何一种信息源进行搜索的准确度的两倍都要高一些。”
研究人员们现在正在想办法将这个系统推广应用到其他体育比赛视频中,比如篮球等。但是弗莱施曼说,这项技术绝非只适用于体育比赛视频领域。
英国利兹大学计算机科学教授、VisionGroup研究组组长大卫荷格说,从理论上说,这个系统可以协助其他视频搜索过程,比如安全视频分析等。他说,这个系统是一种非常新颖的方法,为无监督学习系统的发展指明了方向。
荷格说,同时利用语音和可见信息是机器学习研究中的一种强大联合。他说:“在机器学习中,各种情况下可用的信息越多,机器学习就越容易。”
匹兹堡卡利美隆大学电子计算机工程学教授理查德斯特恩说,语音有助于消除可视数据中的模糊数据,可视数据也有助于判定语音的内容,两种相得益彰。这是一种自然的结合,但是这种结合才刚刚开始。
斯特恩说,以前ASR很少会被用于协助搜索,直到最近这项研究才开始起步。他说:“但是一旦开始起步,进展就很迅速。Google在过去的几年里已经开始招聘语音科学家,这也说明了多媒体搜索将迅速从实验室转移到消费者中了。”(三张)