一種快速的視訊分割和目標跟踪演算法
學術心得:一種快速的視訊分割和目標跟踪演算法閱讀心得¶
作者:賴岱佑
文章撰寫日期:2007/5/21
論文名稱:A FAST ALGORITHM FOR VIDEO SEGMENTATION AND OBJECT TRACKING
論文作者:D. D. Giusto, F. Massidda, C. Perra
論文出處:CNIT@UniCA – Multimedia Communications Lab . DIEE, University of Cagliari. Piazza d’Armi, Cagliari 09123 Italy. ddgiusto@unica.it, {fmassidda, ceperra}@diee.unica.it
發表日期:2002
研討會:IEEE DSP
論文編號:0-7803-753-3/02
論文簡介¶
這是一篇由義大利的多媒體通訊實驗室所發表的論文,主要是講求應用在即時通訊上的快速影像切割及物件追蹤,應用範例指的是影音電話以及視訊會議,因為這一類的拍攝影像主要是以半身人類為主,且幾乎是固定座位。
一開始他們所提出最近的研究(2002之前),對於影像的切割都必須計算到n維度,因此速度上就會慢了很多,可是在即時的影像處理上講求的是速度。因此他們調查了一些以型態學方式來作運算的分割技巧,因而提出了他們的作法。
他們的系統是這樣規畫的,首先要有一個初始的輪廓,而這個輪廓會自動成長,直到符合要分割的範圍。怎麼做到的呢?
- Motion detection(動態偵測):利用畫面差異法(他們命名為interframe,事實上沒有這個字,這可能是他們發表的專有名詞),在二值化的處理下,能夠快速的利用兩張影像的差異,找到大概的範圍,當然與門檻值有關。因此門檻值的設定會影響此一部分。
- Edge extraction(邊緣萃取):藉由動態偵測所留下來的結果,還是有非常多的雜訊,以及未封閉的輪廓,以至於需要透過邊緣萃取將輪廓封閉起來。而完成了一個所謂的interframe binary motion mask(二值化動態差異遮罩),並且將輪廓內的空白處填滿,基本上就是為了製作一個完整的遮罩,同時去除輪廓內的雜訊。
- Object extraction(物件抽取):利用兩張封閉且連續的二值化動態差異遮罩,去作運算就可以有效的獲得物件。
心得評論¶
基本上要看懂這篇論文,必須先了解畫面差異法以及距離量測法,我想因為投稿的篇幅有限(只有四頁),所以作者略過了很多技術上的說明,都以專有名詞代過,因此加深了閱讀這篇論文的難度,如果沒有影像處理技術的基礎,那麼就會有看沒有懂,字都認得但卻不知道其函意。
因為我有依照他們的作法實作過,所以了解其原理,以及效能。接下來我就藉我實作的心得與論文的內容相對應,介紹給大家。首先是動態偵測,在這個階段他們提出三個重點。第一是畫面差異的不同之處;第二是門檻值的設定;第三是雜訊的消除。說白話一點,就是兩張影像相減之後,會遇到雜訊的問題,然後透過濾波器將雜訊去除。其次是邊緣萃取,在這個階段他們提出三個重點,第一是畫面差異的搜尋窗;第二是邊緣萃取;第三是形狀填充。直接解釋就是利用一個小視窗,沿著第一部所留下的範圍去搜尋未連續的點,然後把他連起來,變成一個封閉的型狀(遮罩)。接著再把封閉的輪廓擷取下來,把裡面的範圍全部填充起來,就產生了完整封閉的輪廓(遮罩)了。最後是物件抽取,利用前一張的輪廓(遮罩)與第二張的輪廓(遮罩)作AND運算,就可以獲得當下完整的輪廓(遮罩),並且與原始影像相對應,顯示出在遮罩內的原始影像,這樣就可以完整抽取出人物了。
他們認為這種方法不但既快速而且相當新穎(在當時2002年),並且提供實驗數據佐證。
本人認為能夠想出這種方法實在是很有趣,經過本人的實作驗證,的確是既簡單又有效率的方式,簡單是因為這種方法很直觀,有效率是因為只用到加減法以及邏輯運算。當然每個方法都是有缺點的,學術研究就是要能容納不同的聲音,才能有所發展。
首先他們花了太多時間在建構輪廓了,我建議不要填充,而改採其他替代方案,例如邏輯上的運算,就可以大幅縮減填充的時間。其次這種方法必須先繪製一個輪廓出來,也就是無法自動的抽取人物,人物必須在拍攝的第一張畫面,存在於一個預設的輪廓範圍內,而後第二張以後才會自動抽取,歸咎其原因是因為畫面差異法必須有兩張影像才能處理,在沒有第一張影像的情況下,只好規定受測者必須先依照系統的規範,座在輪廓裡面,才能產生第一張的輪廓。接下來他們的輪廓封閉法,有待改善,因為你並不知道到底要用多大的視窗,才能作出較好的輪廓,太大或太小的視窗都會造成誤判,你必須自己去微調它,作者也只以一個代號代表視窗的大小,並沒有明確的指出視窗大小的公式。
這篇論文的貢獻就是提出物件抽取(Object Extraction)的方法,只用到邏輯運算,超酷的,因為運算度度當然快速許多。事實上我看過許多國內的碩士論文,也都採用這種方式,加速物件的抽取。例如在機器視覺上,他們的需求只要知道誤鍵在哪裡就好,根本不需要完整的輪廓,因此採用這種物件抽取法,只用到邏輯運算,那根本就是快到爆。直至目前為止我還沒有看到其它比這篇論文還要早的論文有提出這種方式,因此推估這種方法可能是他們先提出的(不過小弟讀的論文還不夠多,因此這是小弟的猜測)。