以視覺為基礎之人類行為分析系統
學術心得:以視覺為基礎之人類行為分析系統閱讀心得¶
作者:賴岱佑
論文名稱:以視覺為基礎之人類行為分析系統
論文作者:唐嘉宏、田志強、張揚凱、林靈逸、連振昌 中華大學資訊工程學系
論文出處:影像與識別 2007 Vol. 13 No.1
發表日期:2007
論文簡介¶
作者們想要運用電腦視覺的技術針對居家照護、犯罪預防作出基礎的可行性系統,但是該論文並非是系統建構的論文,而是針對關鍵技術作深入的研討,他們將系統切為三大部分,第一部分是個雙相機之多目標物特寫追蹤;第二部分是全方位之人類步伐分析;最後是於低解析度上之臉部表情分析。因此您看這篇論文時,首先要知道這不是討論如何建構完整系統的論文,而是將尋找如何建構該系統的關鍵技術。
心得評論¶
首先他們探討傳統的偵測運動目標物作法,並舉出各種方法之優缺點,進而提出自己的改良想法。第一種為常見的背景相減法(background subtraction),第二種為時間差異法(temporal differencing),第三種是光流法(optical flow),但是這些傳統的作法都不適合於多(雙)攝影機的系統,除了大量的計算問題,無法應用於即時(run-time)系統之外,多(雙)攝影機的重建空間(三度空間),也必須透過大量的運算。而且還分為未經校正法及預先校正法。而他們的想法就是利用兩台攝影機,第一台命為場景攝影機;第二台是PTZ相機。個人依照他們的流程圖描述,發現場景攝影機的功能就是提供資料,而PTZ相機負責追蹤。看見流程方塊圖的描述,所採用的方法大致如下所述,一開始取得背景模型然後用型態學的方式處理,目的是要取出特徵,有了特徵之後再次的減化資料為索引。到這裡之後我們先再次回到前面,因為PTZ相機與場景攝影機所獲的的資料還必須反饋,而PTZ相機更是忙碌,必須作好『初始畫面』、『傳送影像』、『縮放影像』的工作,而後將三種東西(資料或控制),再次傳送到各個建構區塊內,區塊會產生各種矩陣資料。此時,資料方向就分為兩條,其中一條用來選擇處理方法,是要用『Close form Solution』還是『Fundemental Matrix』,經過處理後,再與另外一條資料作結合,目的是設定影像中心點(目標物附近)。
談到這裡,似乎會開始擔心效能的問題了吧。因為還有第二部分(全方位之人類步伐分析)還沒有作,甚至於第三部分(臉部表情分析)計算量也不容小看。因此我直接跳到後面看結論,他們說實際應用時camera取像加上辨識約在0.18-0.21秒左右。咦?原來是使用很好的硬體設備,然後開始尋找是否有關介紹硬體的部分。結果整篇論文沒有提到硬體(預期之內),因為畢竟是探討技術的論文。
解決了部分的疑惑之後,就開始繼續第二部分全方位之人類步伐分析。其實要觀察人的步伐最大的問題就是觀察角度,目前最好最容易作的方式是水平角度,但該論文挑戰的有角度的偵測,因此他們透過透射投影法來作到角度變化,而後再以角度投影法轉換為水平資訊,因而使用水平角度(傳統作法)來偵測步伐。有了水平角度的投影資訊後,若採用image based的處理方式,會遇到許多有關於傳統影像處理的問題,例如:光影變化(特別他們是要在室外室內都能通用)、背景影像雜訊(這是基本問題)…等等。為了避免image based所帶來的影響,他們改採model based的處理方法,可是卻花了大量的時間做計算。他們的想法是與其得到不正確的資料來處理,不如花大量大處理時間來獲得正確的資料,提高正確率。而速度上可以再採用其他方法解決。而解決方法就是他們提出的dynamic gait model fitting algorithm(這也是這個論文的貢獻之一)。個人觀點是他們說到採用image based會遇到的問題,其實已經是影像處理常見的問題了,經過這麼久得時間,大部分都有比較好的解決方法,就以亮度變化來說,將改採其他的Color Space就可以解決一大半問題,因此猜測他們輸入影像的設備可能支援的Color Space方面較為薄弱。卻使得他們先將問題轉換為一個(運算量過大),而後只要處理那個問題即可,促使他們提出自己的演算法來改善問題。這也算是一種創新思維以及建構系統時所選擇的解決方法。建立模型之後,接著就是要進行特徵的抽取,以進行人類步伐的辨識,基於model based的方式,他們使用LDA((Linear Discriminant Analysis))方法處理,結果獲得至少有百分之八十以上的正確率,而且是不同角度下的平均正確率。這樣的實驗結果是可以被接受的,具有『可用性』。
最後一個部分就是人臉影像定位,在這裡他們又提出因為光線所帶來的影響,導至必須作光線補償以及長條圖強化(Histogram equalization)。因此個人可以更加確認,他們的硬體設備對於Color spaces的支援不足,或是他們沒有從Color spaces的方向思考,所以才會每一個階段都遇到光線的問題。無論如何,接著建立起表情轉換矩陣,採取的方法有兩種分別是直接對應法(direct mapping)和奇異直分解法(singular value decomposition),由於在高解析度下的影像處理時間耗費相當久,因此他們將人臉訓練資料轉換至30×30 pixels大小。在處理臉部表情辨識之前,先使用貝葉斯決策樹(boosted tree classifiers)找出臉部區域,偵測臉部重要位置(眼睛、嘴巴),進而取出有效臉部區域,這時候他們又遇到灰度值的問題,再次使用長條圖強化(Histogram equalization)。而透過Intel’s開放電腦視覺程式碼作人臉偵測,幫助他們有效的找到左右眼以及嘴巴頂點位置。如此一來就可以用向量的方式,作出不同角度的偵測。用直接對應法和奇異值分解法計算表情轉換矩陣,這矩陣不僅可以從已知表情轉換到任何其他想求的表情,而且還可以辨識生氣、害怕、高興、難過、無表情、和驚訝六種表情。透過他們所規劃的流程,在臉部表情辨識上有八成以上的準確率。
最後這篇論文的結論只有五行,唯一代表性的句子是“在全方位之人類步伐分析,提出動態模型比對,不但有效降低運算時間,並且可以較不受外在影響,例如光線變化等。”因此,推論出他們非常在意光線的問題,或是遇到光線方面的問題。並且一直想辦法用眼算的方式去除光線對於該系統的影響,但卻又擔心效率上的問題。本篇論文的貢獻個人認為是提出『動態模型比對』法,而該方法準確度有八成以上,並且可以適用於不同的角度。有別於固定式的攝影機只能採取水平偵測,因此這是個創新想法,並且實作出來。
該篇論文將數位影像三個主題結合成一個系統,因此可以發現論文撰稿者有五人,可見是屬於分工合作型。但是不知道是否有一位總編輯將五人的研究成果作一個完整彙集,在閱讀時發現三個主題有三種文筆,有種不連貫的感覺,而且不知是否有篇幅限制,結論只有五行。事實上看起來他們作了很多的研究及實驗,但結論太少,有種好像沒有做完的感覺,似乎結論似有似無,亦或者結論分散於各主題中,因此增加閱讀上的『不舒服』,每一個階段都要多讀幾次,然後記起來。再讀下一個階段,而中間連接的部分是沒有的,只有方塊圖的一條線。還有方塊圖繪製的時候是使用彩色線條,他們並沒有標是甚麼顏色代表甚麼,因此必須依靠個人經驗去猜測,甚麼是資料線,甚麼是控制線。若沒有做過即時影像的經驗,會被這篇論文『拖』了很久時間,才會了解他們說甚麼。