A FAST ALGORITHM FOR VIDEO SEGMENTATION AND OBJECT TRACKING
文章撰写日期:2007/5/21
论文名称:A
FAST ALGORITHM FOR VIDEO SEGMENTATION AND OBJECT TRACKING
论文作者:D.
D. Giusto, F. Massidda, C. Perra
论文出处:CNIT@UniCA – Multimedia Communications Lab . DIEE, University
of Cagliari. Piazza d’Armi, Cagliari 09123 Italy. ddgiusto@unica.it,
{fmassidda, ceperra}@diee.unica.it
发表日期:2002
研讨会:IEEE DSP
论文编号:0-7803-753-3/02
论文简介
这是一篇由意大利的多媒体通讯实验室所发表的论文,主要是讲求应用在实时通讯上的快速影像切割及对象追踪,应用范例指的是影音电话以及视频会议,因为这一类的拍摄影像主要是以半身人类为主,且几乎是固定座位。
一开始他们所提出最近的研究(2002之前),对于影像的切割都必须计算到n维度,因此速度上就会慢了很多,可是在实时的图像处理上讲求的是速度。因此他们调查了一些以型态学方式来作运算的分割技巧,因而提出了他们的作法。
他们的系统是这样规画的,首先要有一个初始的轮廓,而这个轮廓会自动成长,直到符合要分割的范围。怎么做到的呢?
1.
Motion detection(动态侦测):利用画面差异法(他们命名为interframe,事实上没有这个字,这可能是他们发表的专有名词),在二值化的处理下,能够快速的利用两张影像的差异,找到大概的范围,当然与门坎值有关。因此门坎值的设定会影响此一部分。
2.
Edge extraction(边缘萃取):藉由动态侦测所留下来的结果,还是有非常多的噪声,以及未封闭的轮廓,以至于需要透过边缘萃取将轮廓封闭起来。而完成了一个所谓的interframe binary motion mask(二值化动态差异屏蔽),并且将轮廓内的空白处填满,基本上就是为了制作一个完整的屏蔽,同时去除轮廓内的噪声。
3.
Object extraction(物件抽取):利用两张封闭且连续的二值化动态差异屏蔽,去作运算就可以有效的获得对象。
心得评论
基本上要看懂这篇论文,必须先了解画面差异法以及距离量测法,我想因为投稿的篇幅有限(只有四页),所以作者略过了很多技术上的说明,都以专有名词代过,因此加深了阅读这篇论文的难度,如果没有图像处理技术的基础,那么就会有看没有懂,字都认得但却不知道其函意。
因为我有依照他们的作法实作过,所以了解其原理,以及效能。接下来我就藉我实作的心得与论文的内容相对应,介绍给大家。首先是动态侦测,在这个阶段他们提出三个重点。第一是画面差异的不同之处;第二是门坎值的设定;第三是噪声的消除。说白话一点,就是两张影像相减之后,会遇到噪声的问题,然后透过滤波器将噪声去除。其次是边缘萃取,在这个阶段他们提出三个重点,第一是画面差异的搜寻窗;第二是边缘萃取;第三是形状填充。直接解释就是利用一个小窗口,沿着第一部所留下的范围去搜寻未连续的点,然后把他连起来,变成一个封闭的型状(屏蔽)。接着再把封闭的轮廓撷取下来,把里面的范围全部填充起来,就产生了完整封闭的轮廓(屏蔽)了。最后是对象抽取,利用前一张的轮廓(屏蔽)与第二张的轮廓(屏蔽)作AND运算,就可以获得当下完整的轮廓(屏蔽),并且与原始影像相对应,显示出在屏蔽内的原始影像,这样就可以完整抽取出人物了。
他们认为这种方法不但既快速而且相当新颖(在当时2002年),并且提供实验数据左证。
本人认为能够想出这种方法实在是很有趣,经过本人的实作验证,的确是既简单又有效率的方式,简单是因为这种方法很直观,有效率是因为只用到加减法以及逻辑运算。当然每个方法都是有缺点的,学术研究就是要能容纳不同的声音,才能有所发展。
首先他们花了太多时间在建构轮廓了,我建议不要填充,而改采其他替代方案,例如逻辑上的运算,就可以大幅缩减填充的时间。其次这种方法必须先绘制一个轮廓出来,也就是无法自动的抽取人物,人物必须在拍摄的第一张画面,存在于一个预设的轮廓范围内,而后第二张以后才会自动抽取,归咎其原因是因为画面差异法必须有两张影像才能处理,在没有第一张影像的情况下,只好规定受测者必须先依照系统的规范,座在轮廓里面,才能产生第一张的轮廓。接下来他们的轮廓封闭法,有待改善,因为你并不知道到底要用多大的窗口,才能作出较好的轮廓,太大或太小的窗口都会造成误判,你必须自己去微调它,作者也只以一个代号代表窗口的大小,并没有明确的指出窗口大小的公式。
这篇论文的贡献就是提出对象抽取(Object Extraction)的方法,只用到逻辑运算,超酷的,因为运算度度当然快速许多。事实上我看过许多国内的硕士论文,也都采用这种方式,加速对象的抽取。例如在机器视觉上,他们的需求只要知道误键在哪里就好,根本不需要完整的轮廓,因此采用这种对象抽取法,只用到逻辑运算,那根本就是快到爆。直至目前为止我还没有看到其它比这篇论文还要早的论文有提出这种方式,因此推估这种方法可能是他们先提出的(不过小弟读的论文还不够多,因此这是小弟的猜测)。