以视觉为基础之人類行为分析系统
作者:赖岱佑
学术心得:以视觉为基础之人類行为分析系统
论文名称:以视觉为基础之人類行为分析系统
论文作者:唐嘉宏、田志强、张扬凯、林靈逸、連振昌 中华大学资讯工程学系
论文出处:影像与識别 2007 Vol. 13 No.1
发表日期:2007
论文简介
作者们想要运用计算机视觉的技术针对居家照护、犯罪预防作出基础的可行性系统,但是该论文并非是系统建构的论文,而是针对关键技术作深入的研讨,他们将系统切为三大部分,第一部分是个双相机之多目标物特写追踪;第二部分是全方位之人类步伐分析;最后是于低分辨率上之脸部表情分析。因此您看这篇论文时,首先要知道这不是讨论如何建构完整系统的论文,而是将寻找如何建构该系统的关键技术。
心得评论
首先他们探讨传统的侦测运动目标物作法,并举出各种方法之优缺点,进而提出自己的改良想法。第一种为常见的背景相减法(background
subtraction),第二种为时间差异法(temporal
differencing),第三种是光流法(optical
flow),但是这些传统的作法都不适合于多(双)摄影机的系统,除了大量的计算问题,无法应用于实时(run-time)系统之外,多(双)摄影机的重建空间(三度空间),也必须透过大量的运算。而且还分为未经校正法及预先校正法。而他们的想法就是利用两台摄影机,第一台命为场景摄影机;第二台是PTZ相机。个人依照他们的流程图描述,发现场景摄影机的功能就是提供数据,而PTZ相机负责追踪。看见流程方块图的描述,所采用的方法大致如下所述,一开始取得背景模型然后用型态学的方式处理,目的是要取出特征,有了特征之后再次的减化数据为索引。到这里之后我们先再次回到前面,因为PTZ相机与场景摄影机所获的的数据还必须反馈,而PTZ相机更是忙碌,必须作好『初始画面』、『传送影像』、『缩放影像』的工作,而后将三种东西(数据或控制),再次传送到各个建构区块内,区块会产生各种矩阵数据。此时,数据方向就分为两条,其中一条用来选择处理方法,是要用『Close
form Solution』还是『Fundemental
Matrix』,经过处理后,再与另外一条数据作结合,目的是设定影像中心点(目标物附近)。
谈到这里,似乎会开始担心效能的问题了吧。因为还有第二部分(全方位之人类步伐分析)还没有作,甚至于第三部分(脸部表情分析)计算量也不容小看。因此我直接跳到后面看结论,他们说实际应用时camera取像加上辨识约在0.18-0.21秒左右。咦?原来是使用很好的硬设备,然后开始寻找是否有关介绍硬件的部分。结果整篇论文没有提到硬件(预期之内),因为毕竟是探讨技术的论文。
解决了部分的疑惑之后,就开始继续第二部分全方位之人类步伐分析。其实要观察人的步伐最大的问题就是观察角度,目前最好最容易作的方式是水平角度,但该论文挑战的有角度的侦测,因此他们透过透射投影法来作到角度变化,而后再以角度投影法转换为水平信息,因而使用水平角度(传统作法)来侦测步伐。有了水平角度的投影信息后,若采用image
based的处理方式,会遇到许多有关于传统图像处理的问题,例如:光影变化(特别他们是要在室外室内都能通用)、背景影像噪声(这是基本问题)…等等。为了避免image based所带来的影响,他们改采model based的处理方法,可是却花了大量的时间做计算。他们的想法是与其得到不正确的数据来处理,不如花大量大处理时间来获得正确的数据,提高正确率。而速度上可以再采用其他方法解决。而解决方法就是他们提出的dynamic
gait model fitting algorithm(这也是这个论文的贡献之一)。个人观点是他们说到采用image
based会遇到的问题,其实已经是图像处理常见的问题了,经过这么久得时间,大部分都有比较好的解决方法,就以亮度变化来说,将改采其他的Color
Space就可以解决一大半问题,因此猜测他们输入影像的设备可能支持的Color
Space方面较为薄弱。却使得他们先将问题转换为一个(运算量过大),而后只要处理那个问题即可,促使他们提出自己的算法来改善问题。这也算是一种创新思维以及建构系统时所选择的解决方法。建立模型之后,接着就是要进行特征的抽取,以进行人类步伐的辨识,基于model
based的方式,他们使用LDA((Linear Discriminant
Analysis))方法处理,结果获得至少有百分之八十以上的正确率,而且是不同角度下的平均正确率。这样的实验结果是可以被接受的,具有『可用性』。
最后一个部分就是人脸影像定位,在这里他们又提出因为光线所带来的影响,导至必须作光线补偿以及直方图强化(Histogram
equalization)。因此个人可以更加确认,他们的硬设备对于Color
spaces的支持不足,或是他们没有从Color
spaces的方向思考,所以才会每一个阶段都遇到光线的问题。无论如何,接着建立起表情转换矩阵,采取的方法有两种分别是直接对应法(direct
mapping)和奇异直分解法(singular
value decomposition),由于在高分辨率下的图像处理时间耗费相当久,因此他们将人脸训练数据转换至30×30 pixels大小。在处理脸部表情辨识之前,先使用贝叶斯判定树(boosted tree
classifiers)找出脸部区域,侦测脸部重要位置(眼睛、嘴巴),进而取出有效脸部区域,这时候他们又遇到灰度值的问题,再次使用直方图强化(Histogram
equalization)。而透过Intel’s开放计算机视觉程序代码作人脸侦测,帮助他们有效的找到左右眼以及嘴巴顶点位置。如此一来就可以用向量的方式,作出不同角度的侦测。用直接对应法和奇异值分解法计算表情转换矩阵,这矩阵不仅可以从已知表情转换到任何其他想求的表情,而且还可以辨识生气、害怕、高兴、难过、无表情、和惊讶六种表情。透过他们所规划的流程,在脸部表情辨识上有八成以上的准确率。
最后这篇论文的结论只有五行,唯一代表性的句子是“在全方位之人类步伐分析,提出动态模型比对,不但有效降低运算时间,并且可以较不受外在影响,例如光线变化等。”因此,推论出他们非常在意光线的问题,或是遇到光线方面的问题。并且一直想办法用眼算的方式去除光线对于该系统的影响,但却又担心效率上的问题。本篇论文的贡献个人认为是提出『动态模型比对』法,而该方法准确度有八成以上,并且可以适用于不同的角度。有别于固定式的摄影机只能采取水平侦测,因此这是个创新想法,并且实作出来。
该篇论文将数字影像三个主题结合成一个系统,因此可以发现论文撰稿者有五人,可见是属于分工合作型。但是不知道是否有一位总编辑将五人的研究成果作一个完整汇集,在阅读时发现三个主题有三种文笔,有种不连贯的感觉,而且不知是否有篇幅限制,结论只有五行。事实上看起来他们作了很多的研究及实验,但结论太少,有种好像没有做完的感觉,似乎结论似有似无,亦或者结论分散于各主题中,因此增加阅读上的『不舒服』,每一个阶段都要多读几次,然后记起来。再读下一个阶段,而中间连接的部分是没有的,只有方块图的一条线。还有方块图绘制的时候是使用彩色线条,他们并没有标是甚么颜色代表甚么,因此必须依靠个人经验去猜测,甚么是数据线,甚么是控制线。若没有做过实时影像的经验,会被这篇论文『拖』了很久时间,才会了解他们说甚么。