Skip to main content

以视觉为基础之人類行为分析系统

 作者:赖岱佑
学术心得:以视觉为基础之人類行为分析系统



论文名称:以视觉为基础之人類行为分析系统
论文作者:唐嘉宏、田志强、张扬凯、林靈逸振昌 中华大学资讯工程学系
论文出处:影像与 2007 Vol. 13 No.1
发表日期:2007


论文简介

作者们想要运用计算机视觉的技术针对居家照护、犯罪预防作出基础的可行性系统,但是该论文并非是系统建构的论文,而是针对关键技术作深入的研讨,他们将系统切为三大部分,第一部分是个双相机之多目标物特写追踪;第二部分是全方位之人类步伐分析;最后是于低分辨率上之脸部表情分析。因此您看这篇论文时,首先要知道这不是讨论如何建构完整系统的论文,而是将寻找如何建构该系统的关键技术。

心得评论

首先他们探讨传统的侦测运动目标物作法,并举出各种方法之优缺点,进而提出自己的改良想法。第一种为常见的背景相减法(background subtraction),第二种为时间差异法(temporal differencing),第三种是光流法(optical flow),但是这些传统的作法都不适合于多(双)摄影机的系统,除了大量的计算问题,无法应用于实时(run-time)系统之外,多(双)摄影机的重建空间(三度空间),也必须透过大量的运算。而且还分为未经校正法及预先校正法。而他们的想法就是利用两台摄影机,第一台命为场景摄影机;第二台是PTZ相机。个人依照他们的流程图描述,发现场景摄影机的功能就是提供数据,而PTZ相机负责追踪。看见流程方块图的描述,所采用的方法大致如下所述,一开始取得背景模型然后用型态学的方式处理,目的是要取出特征,有了特征之后再次的减化数据为索引。到这里之后我们先再次回到前面,因为PTZ相机与场景摄影机所获的的数据还必须反馈,而PTZ相机更是忙碌,必须作好『初始画面』、『传送影像』、『缩放影像』的工作,而后将三种东西(数据或控制),再次传送到各个建构区块内,区块会产生各种矩阵数据。此时,数据方向就分为两条,其中一条用来选择处理方法,是要用『Close form Solution』还是『Fundemental Matrix』,经过处理后,再与另外一条数据作结合,目的是设定影像中心点(目标物附近)。
谈到这里,似乎会开始担心效能的问题了吧。因为还有第二部分(全方位之人类步伐分析)还没有作,甚至于第三部分(脸部表情分析)计算量也不容小看。因此我直接跳到后面看结论,他们说实际应用时camera取像加上辨识约在0.18-0.21秒左右。咦?原来是使用很好的硬设备,然后开始寻找是否有关介绍硬件的部分。结果整篇论文没有提到硬件(预期之内),因为毕竟是探讨技术的论文。
解决了部分的疑惑之后,就开始继续第二部分全方位之人类步伐分析。其实要观察人的步伐最大的问题就是观察角度,目前最好最容易作的方式是水平角度,但该论文挑战的有角度的侦测,因此他们透过透射投影法来作到角度变化,而后再以角度投影法转换为水平信息,因而使用水平角度(传统作法)来侦测步伐。有了水平角度的投影信息后,若采用image based的处理方式,会遇到许多有关于传统图像处理的问题,例如:光影变化(特别他们是要在室外室内都能通用)、背景影像噪声(这是基本问题)等等。为了避免image based所带来的影响,他们改采model based的处理方法,可是却花了大量的时间做计算。他们的想法是与其得到不正确的数据来处理,不如花大量大处理时间来获得正确的数据,提高正确率。而速度上可以再采用其他方法解决。而解决方法就是他们提出的dynamic gait model fitting algorithm(这也是这个论文的贡献之一)。个人观点是他们说到采用image based会遇到的问题,其实已经是图像处理常见的问题了,经过这么久得时间,大部分都有比较好的解决方法,就以亮度变化来说,将改采其他的Color Space就可以解决一大半问题,因此猜测他们输入影像的设备可能支持的Color Space方面较为薄弱。却使得他们先将问题转换为一个(运算量过大),而后只要处理那个问题即可,促使他们提出自己的算法来改善问题。这也算是一种创新思维以及建构系统时所选择的解决方法。建立模型之后,接着就是要进行特征的抽取,以进行人类步伐的辨识,基于model based的方式,他们使用LDA(Linear Discriminant Analysis))方法处理,结果获得至少有百分之八十以上的正确率,而且是不同角度下的平均正确率。这样的实验结果是可以被接受的,具有『可用性』。
最后一个部分就是人脸影像定位,在这里他们又提出因为光线所带来的影响,导至必须作光线补偿以及直方图强化(Histogram equalization)。因此个人可以更加确认,他们的硬设备对于Color spaces的支持不足,或是他们没有从Color spaces的方向思考,所以才会每一个阶段都遇到光线的问题。无论如何,接着建立起表情转换矩阵,采取的方法有两种分别是直接对应法(direct mapping)和奇异直分解法(singular value decomposition),由于在高分辨率下的图像处理时间耗费相当久,因此他们将人脸训练数据转换至30×30 pixels大小。在处理脸部表情辨识之前,先使用贝叶斯判定树(boosted tree classifiers)找出脸部区域,侦测脸部重要位置(眼睛、嘴巴),进而取出有效脸部区域,这时候他们又遇到灰度值的问题,再次使用直方图强化(Histogram equalization)。而透过Intel’s开放计算机视觉程序代码作人脸侦测,帮助他们有效的找到左右眼以及嘴巴顶点位置。如此一来就可以用向量的方式,作出不同角度的侦测。用直接对应法和奇异值分解法计算表情转换矩阵,这矩阵不仅可以从已知表情转换到任何其他想求的表情,而且还可以辨识生气、害怕、高兴、难过、无表情、和惊讶六种表情。透过他们所规划的流程,在脸部表情辨识上有八成以上的准确率。
最后这篇论文的结论只有五行,唯一代表性的句子是“在全方位之人类步伐分析,提出动态模型比对,不但有效降低运算时间,并且可以较不受外在影响,例如光线变化等。”因此,推论出他们非常在意光线的问题,或是遇到光线方面的问题。并且一直想办法用眼算的方式去除光线对于该系统的影响,但却又担心效率上的问题。本篇论文的贡献个人认为是提出『动态模型比对』法,而该方法准确度有八成以上,并且可以适用于不同的角度。有别于固定式的摄影机只能采取水平侦测,因此这是个创新想法,并且实作出来。
该篇论文将数字影像三个主题结合成一个系统,因此可以发现论文撰稿者有五人,可见是属于分工合作型。但是不知道是否有一位总编辑将五人的研究成果作一个完整汇集,在阅读时发现三个主题有三种文笔,有种不连贯的感觉,而且不知是否有篇幅限制,结论只有五行。事实上看起来他们作了很多的研究及实验,但结论太少,有种好像没有做完的感觉,似乎结论似有似无,亦或者结论分散于各主题中,因此增加阅读上的『不舒服』,每一个阶段都要多读几次,然后记起来。再读下一个阶段,而中间连接的部分是没有的,只有方块图的一条线。还有方块图绘制的时候是使用彩色线条,他们并没有标是甚么颜色代表甚么,因此必须依靠个人经验去猜测,甚么是数据线,甚么是控制线。若没有做过实时影像的经验,会被这篇论文『拖』了很久时间,才会了解他们说甚么。


Popular posts from this blog

Python 日期與時間的處理

Visual Basic 6.0 (VB6) 程式語言案例學習 (10. 條碼列印程式)

寫作:波蘭文學習之旅:1-1. 波蘭文字母與發音(注音版)

Python 日期與時間的處理

Image

Visual Basic 6.0 (VB6) 程式語言案例學習 (10. 條碼列印程式)

Image

寫作:波蘭文學習之旅:1-1. 波蘭文字母與發音(注音版)

Image

數位影像處理:最佳化處理策略之快速消除扭曲演算法

Image

Visual Basic .Net (VB.Net) 程式語言案例學習 (06. 題庫測驗系統)

Image

用10種程式語言做影像二值化(Image binarization)

Visual Basic 6.0 (VB6) 程式語言案例學習 (04. 人事考勤管理系統)

Image

修復損毀的 SQLite DB 資料庫

Image

Visual Basic 6.0 (VB6) 程式語言案例學習 (07. 收據列印程式)

Image

Visual Basic .Net (VB.Net) 程式語言案例學習 (03. 場地預約系統)

Image