计算机视觉概述十篇

发布时间:2024-04-26 04:07:12

计算机视觉概述篇1

关键词:计算机;视觉技术;应用;分析

中图分类号:tp37文献标识码:a文章编号:1009-3044(2016)03-0242-02

计算机人工智能技术中的一项重要技术就是计算机视觉技术,这种技术主要是让计算机利用图像来实现认知环境信息的目的,这一目的的实现需要用到多种高尖端技术。近年来随着计算机技术以及计算机网络的普及与发展,计算机视觉技术也得到了较快发展,并且在实际生产与生活中的应用也越来越广泛。

1计算机视觉技术概述

1.1基本概念

计算机视觉技术主要研究计算机认知能力的一门技术,其具体主要是通过用摄像机代替人的眼睛,用电脑代替人的大脑,最终使计算机具备类似于人类的识别、判断以及记忆目标的功能,代替人类进行部分生产作业。人们目前研究的人工智能技术中的一项重要内容就是计算机视觉技术,通过研究计算机视觉技术可以让计算机拥有利用二维图像认知三维环境的功能。总的来说,计算机视觉技术是在图像与信号处理技术、概率分析统计、网络神经技术以及信息处理技术的基础上,利用计算机来分析、处理视觉信息的技术,它是现代社会新兴起的一门高新技术。

1.2工作原理

在亮度满足要求的情况下,首先使用摄像机对具体事物的图像信息进行采集,利用网络把采集到的图像信息向计算机内部输送,然后在计算机系统内部处理加工图像信息会把事物的原始图像得到,随后利用图像处理技术进一步处理原始图像,获得优化质量效果之后的图像,分类与整理图像中有特征价值的信息,通过智能识别技术识别与描述提取到的图像信息特征,最后把得到的高层次的抽象信息存储起来,在进行识别事务时分析对比这些储存信息就可以实现事物的识别,这样视觉系统的基本任务也就完成了。其具体视觉系统如图1所示:

1.3理论框架

人类研究视觉技术虽然起步比较早,但取得较大进步是在20世纪80年代初伴随着视觉计算理论的出现。它的出现把研究视觉理论的策略问题解决了,视觉技术是一项特别复杂的信息处理过程,要想对视觉的本质准确完整的理解,必须从不同角度与层次研究与分析视觉本质。视觉计算理论研究层次大致可分为:计算机理论、算法以及实际执行。站在计算机理论的角度分析视觉技术,我们可知必须用要素图、维图、以及三维模型表像来描述视觉信息。

所以,可以把计算机视觉技术当做从三维环境图像中抽取、描述与解释信息的过程,其主要分析步骤可分为感觉、处理、描述、识别、解释等。若依据上述各过程实现需用到的方法与技术的复杂性划分层次,可大致把计算机视觉技术划分为:低层视觉处理、中层视觉处理、高层视觉处理三个层次。

2计算机视觉技术在自动化中的应用

2.1农业自动化中计算机视觉技术的应用

在农业自动化中应用计算机视觉技术可以全天候实时监测农作物的生长状况,便于科学管理农作物。还可以应用计算机视觉技术来检测农产品的质量,例如可以应用计算机监测技术来监测大多数蔬菜的质量,传统的人工检测蔬菜质量的方法,不仅费时费力,而且检测结果的准确性也不能很好的保证,在实际人工检测过程中还容易伤害蔬菜,可以通过利用计算机视觉技术来感应蔬菜自身释放的红外线、紫外线以及其他可见光的能量大小,然后和质量达标蔬菜的光线能量大小进行对比,根据这些对比结果可以把蔬菜质量的好坏准确判断出来,在蔬菜质量检测过程中应用计算机视觉技术,把传统的蔬菜检测方法完全颠覆了,极大的方便了农产品的质量检测,由此可见,计算机视觉技术在农业生产中有很高的使用与推广价值。

2.2在工业自动化中计算机视觉技术的应用

计算机视觉技术在工业自动化应用的一个重要领域就是可以精密测量零件尺寸,其测量与被测对象的原理如图2所示。

光学系统、计算机处理系统以及CCD摄像头,是计算机检测系统的主要组成,被测物体由光源发出的平行光束进行照射,利用显微光学镜把待检测部位的轮廓图像呈现在摄像机的面阵CCD上,然后再通过计算机处理这些图像,进而把被测部位的轮廓位置信息获取下来,若被测对象是出现位移时,可通过两次重复测量,利用两次测量的位置差就可以得出,被测物体的位移量。

此外计算机视觉技术还可以应用于逆向工程中,应用3D数字化测量仪可以快速准确的测出现有工件轮廓的坐标值,同时还能构建曲面,保存成CaD或Cam图像,把这些图像送入CnC制作中心加工,便可制作出产品,这也就是所谓的逆向工程。由上述分析我们可知逆向工程要想实现,最关键的一环就是如何通过精密测量系统来测量样品的三围尺寸,获得各部位数据,进而做曲面处理进而加工生产。对于这一难题我可以通过利用线结构光测量物体表面轮廓技术来实现,器具体轮廓结构示意图如下图3所示。

这种测量方法的工作原理为:利用激光穿越平行、等距的振幅光栅组件,或直接采用干涉仪发出的干涉条纹,形成平面条纹结构光,再向物体表面投射,由于物体各表面的深度与曲率的不同,条纹会自动出现变化,然后再通过使用CCD摄像机对变形条纹进行拍摄。这样就可以把物体表面轮廓的变化情况分析出来。摄像机在拍摄图像的过程中,把图像信号转化为模拟信号,再转化为数字信号,然后经过传送再还原信号到图形处理系统,就得到三维轮廓图像。

在工业自动化中计算机视觉技术的深入广泛应用,不但使工业产品的生产质量得到了保障,而且跨越式的提高了工业产品的生产速度。如计算机视觉技术可以很好的检测产品包装质量,封口质量以及印刷质量等等,如我国重点指定的印刷造币机器的南京造币厂,由于货币制造印刷是由印刷造币机器来实现的,所以要严格要求其生产工艺,一丝一毫的生产差错都不允许存在,为了保障印刷制造出来的造币机器质量完全达标,必须严格精确检测生产出来的成品。在印刷造币机器的过程中要求要有非常高的计算机视觉技术,随着计算机视觉技术的不断进步,计算机视觉技术已经对印刷造币机器的需求完全满足了,实际的应用效果也非常理想,印刷造币机器在实际生产的过程中,南京造币厂把计算机视觉技术应用在了每个应刷造币机器最后的生产工序上,硬币受到重力下落的瞬间,计算机视觉技术可以瞬间采集图像的信息,准确拍摄硬币在下落过程中的图像,通过高速光纤传感器可以把硬币图像向计算机系统快速传输,利用计算机系统处理信息与识别信息的超强能力,可以及时识别硬币质量,经大量实践研究得出,在印刷造币机器上应用计算机视觉技术已经几乎没有检查差错现象的发生,由此可知,在工业自动化中计算机视觉技术的应用不但可行,而且发展空间还很大。

2.3在医学自动化中计算机视觉技术的应用

在医学领域计算机视觉技术也得到了广泛应用,如医学中经常用到的Ct图像以及X射线图都用到了计算机视觉技术,这些技术的广泛应用很大程度上方便了医生准确判断病人病情,另外,在生产药品的过程中,应用计算机视觉技术可以高效检测药品包装的合格与否,其基本流程是:传送装置先准确运输药品到指定位置,传送装置自身又可分为检测与分离两个区域,在传送药品的过程中药品的图像信息会被特定的摄像机采集,采集完成后向计算机系统传递采集信息,然后计算机系统会分析与处理这些信息,把没有包装好的药品自动识别出来,并且向分离区传递识别信息,分离区的自动装置会依据传输的分离信息,隔离开没有包装好的药品,这样就可以有效分类包装好的药品与没有包装好的药品,在药品包装检测方面应用计算机视觉技术代替传统人工检测,不但可以实现药品准确无误的检测,而且还可以大大提高检测药品包装质量的效率,完善了药品生产的自动化,由此可见,在医学自动化中应用计算机视觉技术可以积极促进医学自动化的发展。

3结束语

总之,计算机视觉技术是一门研究计算机识别能力的高新技术,它涵盖了很多其他技术,具有一定复杂性。要想使其在自动化生产中得到更好地推广与应用,我们必须在明白其基本概念、工作原理以及理论框架的基础上,结合实际生产情况,不断进行深入研究,只有这样才能使计算机视觉技术得到更好地推广与应用,才能使这项现代化的高新技术更好的服务于社会,服务于人类。

参考文献:

[1]龚超,罗毅,涂光瑜.计算机视觉技术及其在电力系统自动化中的应用[J].电力系统自动化,2003(1).

[2]李永奎,刘冬.计算机视觉技术在农业生产中的应用[J].农业科技与装备,2011(6).

计算机视觉概述篇2

【关键词】计算机多媒体技术关键性技术

目前,随着多元化科学技术的发展,多媒体技术的广泛应用已经引起了社会的广泛关注,对人们的生活和社会生产产生了非常重要的影响,是促进社会经济发展的重要力量之一。为此,本文围绕计算机技术,对多媒体的内涵和相关的关键技术进行了下列阐述。

1计算机多媒体技术概述

1.1对媒体技术的含义

多媒体技术发展离不开数字化技术的发展,打个简单的比方,对文本文件或者动画文件中的相关元素进行综合处理,对其中的信息进行总结,然后采集并处理这些内容,充分运用多种硬件设施和软件设备建立多种媒体之间的相关联系,然后在此基础上形成人机相互交流系统的一种技术[1]。这种技术就是多媒体技术。在多媒体的辅助下,信息可以在传播的过程中不断得到完善,实现和计算机交互功能的相互连接,促进其作用的充分发挥,使文字、图像在被看见的同时还能后满足听觉的信息需求,对这种新型材料进行制作,这个过程就是多媒体技术[2]。

1.2多媒体技术的特点

专业化是多媒体技术的最大特点。所谓专业化就是多种媒体集中在一起的综合形态,能够同时对两种或者两种以上的媒体信息进行交互的有效载体。数字信号是多媒体技术最基础的运行单位。在这一平台上,可以将文字、声音和图像等信息结合在一起。这也说明,多媒体技术还具有多样性的特点,也正是这种多样性,相互关联的信息才能进行有效的传递,然后利用数字化信息来有效解决数据在传递过程中的失真问题。

2计算机多媒体的关键技术

2.1视频压缩技术

Shannon信息理论是传统压缩编码技术的基础。这一信息理论则是建立在集合论基础之上,然后利用统计概率的相关模型来对信息的来源进行描述。这种压缩编码技术存在一定的局限性,未能对信息接受对象的主观能动性以及事件本身包含的具体内容、重要性、产生的后果等主要因素进行充分考虑。因此,在Shannon信息理论的基础上,压缩编码技术也在不断的发展和完善。数据压缩编码技术按照不同的分类标准,可以被分成很多不同的类型。

(1)以照信息来源的统计特点为划分依据,该技术可以分为转换编码、预测编码、小波编码、矢量量化编码和神经网络编码等5种;

(2)将数据的视觉性特征作为划分依据,那么该技术可以被分为图像编码和以图像纹理和轮廓为基础的编码等两种;

(3)从图像所表达的景物特点来划分,图形编码和以内容为基础的编码是两种最主要的编码方法。其中图像编码的发展经历了两个阶段。第一阶段是以数据统计为基础的,将数据的冗余去除,是一种层次比较低的压缩编码方法。第二阶段则是以内容为基础,然后将其中的冗余去除,鉴别其中的对象和方法,就是我们这里所讨论的压缩编码技术。这是一种高层次的压缩编码方法,既是一种新型的压缩编码方法,也是目前使用最广泛的压缩编码方法。

2.2视频点播技术

采用用户信息交流的方式进行自然进化的过程就是多媒体的交互。多媒体服务涉及的范围非常广泛,其中应用最广泛的就是视频点播技术。网络技术和计算机技术的发展和相互融合是视频点播技术发展的技术。视频点播的主要内容包括计算机技术、通信技术、电视技术等,是一种将上述技术整合为一体的新型技术,充分发挥了视频技术和网络技术的优势,彻底改变了被动收看电视节目的方式,可以根据用户的实际需求收看电视节目,还能够随意播放,人们可以根据自己的意愿来点播自己喜爱的电视节目。同时,视频点播技术中传递方法的运用彻底改变了传统的课堂教学模式,拓宽了教学的模式,影音、广播、语音、发送消息、网络影院、远程教育和点播教学等都可以借助互联网进行传播。视频服务器是该技术必不可少的重要组成部分,是视频系统完成功能和提高性能和质量的关键部分,所以在视频服务系统中是被重点研究的对象。视频服务除了要求保证端到端的播放质量之外,还需要观察系统各方面的性能。在大多数情况下,视频流编码压缩和传递技术、视频流调度技术、ip网与Cable网实现、存储和i/o调度策略、接入控制、流量控制与差错控制、视频服务器体系结构等是视频服务系统中需要重点解决的问题。

2.3多媒体数据库技术

多媒体信息中的非格式化数据所占的比例较大,基于此,我们可以将多媒体数据的特点归纳为三点,即对象的复杂性、数据存储的分散性和时空的同步性。其中关系数据库相对比较简单,但是在多媒体资料的管理的质量依然不高。从目前的实际情况来看,基于对象数据库来管理多媒体资料并不能满足使用的需求,因为基于对象是一个新一代数据库应用,它所需要的是强有力的数据模型的基础良好。这种基于对象的方法适合用来描述非常复杂的对象,结合了封装、继承、对象、多态、类等概念,所以能够对多样对象和它们之间的内部结构之间的相互关联进行清晰地描述。目前,多媒体系统进行研究和开发的主要方向就是要将面向对象程序设计语言和数据库技术的相互结合,但是首先需要解决的问题就是要制定对象的统一标准。

2.4现实虚拟技术

虚拟技术是信息技术行业少有的高新技术之一。该技术是一种集成化的技术,具体内容涉及到人工智能、人机交互技术、计算机图形学、传感技术、网络设计等非常广泛的领域。同时,虚拟技术还可以利用计算机来进行三维画面的合成,让用户获得逼真的听觉、视觉、嗅觉等感官的体验。在虚拟技术的基础上,人们可以借助固定的设备,自然的参与到虚拟世界的体验中。现实虚拟必须通过计算机生茶,其基础必须是视觉、听觉、嗅觉和触觉等具体的感官。在这种情况下,用户需要通过身体四肢的正常活动和虚拟环境交互。除了上述四种技术之外,计算机多媒体的技术还包括流媒体技术和音频技术等,而且随着网络技术和计算机的发展,这些技术也必将在多媒体技术中发挥更重要的作用。

3结语

综上所述,随着计算机技术的不断进步和发展,多媒体技术的发展也不断成熟和完善。为了切实满足人们对现实生活多样化的需求,多媒体技术已经在教学、视频、视频会议、娱乐节目点播、军事等很多行业得到了广泛应用。多媒体技术和视频压缩技术、视频点播技术、多媒体数据库技术、现实虚拟技术、音像技术和通信技术等多种技术的有机结合,极大地促进了信息处理技术的发展。

参考文献:

[1]马文霞.对计算机教学中利用多媒体技术的合理性分析[J].计算机光盘软件与应用,2013,06(11):74+76.

计算机视觉概述篇3

关键词:信息可视化概述定义认知任务信息美学

一介绍

作为一个跨学科领域,首次接触信息可视化的人对这一领域往往存在片面的理解,容易从某一和专业相关的视角审视它。信息可视化是一个涵盖范围很广的领域,它以计算机技术为依托,同时又关注美学形式,由任务导向型向用户研究型转化,这要求越来越多的跨学科交流和其范围的更新与加入新的诠释。计算机技术的发展,也为信息可视化的深入和日益强大提供了更大的发挥空间,如今作为一个独立学科,已有一批先进的学者对其开展了专门的研究。为了鼓励越来越多人参与进来,非常有必要对信息可视化的定义作出全面的诠释,为未来研究人员的工作打下坚实基础。

二信息可视化的定义

2.1信息可视化的定义

关于信息可视化的定义,1999年已经提出。信息可视化通常被认为是产生信息交互及视觉表现,用以扩充用户的认知领域(Cardetal.,1999)。笔者之后阅读了有关信息可视化近些年来的30篇文章,其中许多来自不同专业背景的研究者都在自己的文章开头阐述了对信息可视化定义的理解。大致说法不变,但进行了进一步的理解和补充,下面两种说法得到了广泛的认可和支持。

在theValueofinformationVisualization一文中,Card,mackinla和Shneiderma将可视化定义为依靠计算机支持的,增强人们与数据之间视觉交互的表现形式。当一个人根本不知道数据中隐藏着什么问题或想知道更加深层次的数据内在关系的时候,信息可视化系统可以帮助人们迅速缩小范围,找到需要更仔细研究的那部分数据。

在CarolineZiemkiewic和RobertKosara撰写的embeddinginformationVisualizationwithinVisualRepresentation一文中,对可视化理论提出了一个更为广泛和全面的标准。他们认为信息可视化的定义是它区别于其他形式的视觉表现的重点之一。通常,可视化被定义为把数据转化为图像的手段,但直观地来说,其本质还是与信息图形和基于数据集的艺术作品有所区别。信息可视化是一个更大的概念,同时定位在更大范围内的可视化将有助于更好地了解基本的研究目标。

传统范畴内的信息可视化,大多指科学可视化、信息可视化和可视化分析,这三个概念本身定义就是模糊的,而且存在重叠的部分。术语“数据可视化”本身就是一种模糊的说法,因为它有时指的是上述所有的可视化说法,有时被用来专指科学可视化而没有信息可视化。对于我们而言,通常数据可视化将被用来指所有来自数据的可视化表现,无论这些数据是抽象的还是有具体的位置。基于上述这些观点,作者认为信息可视化的本质虽然是技术的,但它的表现通常情况下,是视觉的直观表示,如插图、信息图形、数字艺术、视觉语言等等。因此,信息可视化嵌入其他的传统视觉标准中,不是单纯的技术,而依赖于4种表现形式,即数据、映射、交互和符号。在这些工作的基础上,作者制定了信息可视化的定义,也可作为可视化表现的分类,对应的有四点:(1)是否来源于数据;(2)把双映射图片上的信息表现为图像;(3)提供强大的交互性;(4)在语义学上是一个符号象征系统。

2.2一些容易混淆的概念

2.2.1信息设计和信息框架

著名的信息可视化研究学者andrewVandemoere对这两个概念进行了划分。信息架构是一个方法,侧重于组织和分类数据,其概念上和视觉上与功能、导航、交互相关。它通常是指网页设计领域。信息设计是关于信息图形和信息视觉化展示的设计。想想你可以在报纸和杂志图中找到的图表。因此,它们存在不同的定义;信息框架更强调的是一种动态特征和用户体验,信息设计更强调其近态吸引力和设计感。

2.2.2信息可视化和数据可视化

有很多人把这两个概念放在一起,认为他们是一样的。但我们通常把信息可视化看作是一个更为广泛的概念,它包括数据可视化。如上文所说,数据可视化即所有与数据相关的可视化形式,而信息可视化包括一些非数据形式的可视化。因此,它是一个更大的概念。

2.2.3数据、信息、知识和内在深刻的见解

在2009年初ieee计算机领域的文章Data,information,andKnowledgeinVisualization中,学者们就提到了前三个应该在信息可视化领域加以区分开来的概念。Russellackof(f表2-1)定义下的知觉认知空间范围内的数据、信息和知识:是信息可视化过程中不同阶段信息的称呼,就范围上来说,由从大到小深入过程。数据是指信息可视化最初得到的原始符号;信息是经过处理后被认为有用的数据;知识则是经过筛选和整理后信息的使用。

而“内在深刻的见解”(insight),是一个更为重要的概念。它反映了只有在可视化之后才比较容易显现出来的数据之间的内在关系和对数据深刻的认识。在Youn-ahKang&Johnt.Stasko,JiSooYi和Juliea.Jacko共同完成的UnderstandingandCharacterizinginsights:HowDopeopleGaininsightsUsinginformationVisualization一文就对这个概念做了透彻的调查研究。文中提到,尽管“提供内在深刻的见解”一直被认为是信息可视化的主要目的之一,但是这种内在的见解始终不是一个很好理解的概念。于是作者们受到理解力研究的启发,意识到理解这种内在关系程序方面的重要性。因此,不是问:“什么是insight?”而是将注意力集中在“人们是怎样获得这种insight上?”

为了更好地理解和体现这种见解的特性,他们回顾了过去有关信息可视化的文献,寻求其他研究人员的意见,看他们对这个概念的理解并发现这样几条帮助理解的说法:(1)这种内在的见解往往被视为视觉可视化的结果,并且获取它的程序大部分是看不到的;(2)获得见解的四个主要过程(提供概述,调整,检测模式,匹配心理模型)已经在信息可视化的文献中得到讨论;(3)这四个不同的过程为从信息可视化中获得内在见解提供了线索。基于这些观点的取得,希望可以帮助研究人员和从业人员正确理解insight的概念,并在一个更深入的层次上评估infoVis系统和技术。

三信息可视化的分类

信息可视化过去的研究往往聚焦于为专家用户群提供深入了解和研究复杂的交互视觉模型技术放大认知。但是随着信息可视化的发展,它的用途也越来越多,并且越来越深入普通大众的生活。在Zacharypousman,Johnt.Stasko和michaelmateas撰写的CasualinformationVisualization一文中就很难得的提出了描绘日常生活中信息可视化的概念。对信息可视化领域作出了一个系统的分类,作为对传统可视化领域的补充。

3.1传统信息可视化

传统信息可视化指的是科学可视化。它是一个跨学科的科学分支,主要关注可视化的三维现象(建筑,气象,医学,生物等),强调的是逼真的效果图卷,表面,照明光源等等,它也许还有一个充满活力的组成部分(时间)。它也被认为是计算机科学的一个分支,是计算机图形学的一个子集。科学计算可视化的目的是生动地说明科学数据,使科学家能够理解,并获得深刻的关于数据的见解。

3.2按信息可视化边缘分类

3.2.2周围信息可视化

周围信息可视化是一个比较宽泛的信息可视化描述,位于这一领域的边缘。Skoget.al.认为它是提供信息艺术的工作,是把枯燥的数据转换为微妙的数据画的系统。信息艺术的灵感来源于当代艺术(包括蒙德里安),传递例如公车离开时间或是天气数据这类的信息。事物的颜色、时间和位置在一幅电子图片中随着时间变化,数据得到不断更新。这种系统被认为是信息可视化边缘范畴的一个重要原因是其交互功能的减弱。

3.2.3社会信息可视化

如今社交类信息无处不在,用户可以直接地看到他们。合作完成的文章和图画,歌曲的共享、采样、和混音。技术支持标签的使用,使人们能分享网络书签、新闻,甚至公共空间。社交过程、社交网络和社交环境的可视化成为了又一个另研究学者们兴奋和好奇的研究点。

3.2.4艺术信息可视化

另一个新兴领域的信息可视化即是数据驱动的艺术作品。这些系统也显示了数据转换为图形的表现形式,其中有一些还是互动的。Viegas和wattenberg已经创造了这个词,用于描述信息可视化技术下的艺术作品。在我们看来,这些系统有明确的目标,即挑战先入为主的数据表现形式。在艺术世界的字典里,他们“问题化”了我们的日常观念。

这些系统唤起了人们的好奇,困惑,甚至沮丧,他们只从美学或设计角度出发。当然,作为一种艺术形式,他们大多具有美感。但他们有不仅是美丽的,他们也有其功能特点。

3.2.5其他信息可视化

前面的三个子系统都是信息可视化领域相当活跃的系统,关于它们也有较多的例子。然而,还有许多其他的系统,也可能被认为是边缘的情况,却不属于上述三个系统当中。这些边缘事件主要是一些在线工具,如作为财智月刊“(Smartmoney)的地图市场[42],或的“堆栈”、“群”、和“弧”的可视化,还有一些较少的任务,集中在可视化的网志的帖子,如“theDumpster”。

3.3其他信息可视化的分类方法

按信息可视化内容层次划分为用户人数和使用方式、数据和内在的理解;按信息可视化的表现形式划分为数据,映射,交互和符号等等。

四认知角度的信息可视化

其实美学角度的信息可视化中,许多原理来源于人类认知过程和思维方式的观点,下面就来看一下认知角度的信息可视化。

在informationVisualizationperceptionforDesign一书第11章,信息可视化理论的思考中提及,信息可视化之美,关注了信息可视化的认知经济和知识的认知价值。可视化通过两种基本方法辅助思维:一种是通过信息图形的视觉询问;二是延长记忆点。看到的东西可以更容易被认知的几种重要途径有:(1)增加记忆点,方便大脑的后续整理;(2)减少寻找信息的步骤;(3)提高图案的识别性;(4)发挥认知推断的作用;(5)使用认知机制观察信息;(6)把信息编入一个可操作的界面信息可视化正也是基于这些观点不断优化与发展的,旨在更便捷地为用户提供实时的服务,更好地帮助人们理解数据的意思,甚至带来愉悦的享受。

此外,重庆大学的两位学者在2011年的国际电子设备工程信息技术大会上发表了optimizationforinformationVisualizationBasedonVisualthinkin,其中也对人们通过视觉思维认知世界的过程做了深入探讨,并试图通过这一认知手段选择出信息可视化的最优选择。其中展示了人们开展视觉思维的认知过程。认知过程大致可以分为六个阶段。

首先通过身体器官眼睛输入图形、图像、文字、符号和颜色等等信息。人们看到信息,记忆存储下来的多少取决于人们身体的限制和过去体验和知识的积累的多少;第二阶段图形记忆会筛选一些信息,来决定哪些信息需要被大脑有意识地记录下来,在这一阶段,一些原先熟悉的或者基础的信息会很快反馈到第三阶段;第三、四阶段筛选过后的信息将得到进一步的处理,意识的功能包括根据认知目标对信息进行排序,以便收集更多的认知资源,然后重点关注一些新的或不熟悉的信息,对它们作出反馈,输入有意义的信息到记忆阶段;第五阶段,也就是记忆阶段就是把这些输入的信息转化为自身体验和知识的过程;最后进入最高阶层的抽象认知阶段,对信息进行归纳和总结,产生一些概念、逻辑性(信息之间的关系)等等的抽象概念。基于上述这些对于认知过程的分析,提高信息可视化有效性的途径是减少人们的认知成本,及简化上述过程,提高响应效率,使可视化的过程更好地符合人们认知过程每个阶段的要求。

五美学功能角度的信息可视化

随着各种应用程序和编程语言的发展,设计过程中产生越来越丰富的图形可视化,信息可视化与美学之间的互动在过去的几年里显著增长。因此,有必要区分不同的研究者对功能性和美学特征的信息可视化。虽然客观上两个类别之间的区别是不可能实现的,因为从来没有一种可视化可以完全被看作是一个或另一个,但是假设这里存在这种可能性:那么功能角度的信息可视化的目标是传达信息,和通过用户能够快速理解的隐喻勾画出潜藏在数据内部的图形;而审美信息可视化则更侧重于引出用户出于本能和情感方面的对于数据主观印象。因此,一个成功的可视化系统的判断标准是它向用户传递数据译码的速度和效率。

功能性的信息可视化主要关注其可用性和性能。它视觉方面的判断只以如何快速的帮助用户理解数据作为判断标准。功能性和可用性必须是清楚的,使用户能够简单的获取知识并明白它们。引用mattwoolman在数字信息图形当中的话来说,就是:功能可视化的要求比创新数据分析和计算机计算要多得多,他们必须要创建一种能让用户明白的视觉语言系统,沟通中的表述清晰恰当,就像字母和文字组成的可以在世界范围内传播的语言那样。

而相反的是,审美信息可视化看重的是视觉吸引表现形式的设计,设计师想寻找到一种出于本能的表现形式,通过用户最基本和纯粹的情感和直觉来吸引用户,引发他们的兴趣、注意力、享受和好奇心。这种形式的设计是建立在其视觉形式可以快速吸引用户的基础上,是他们获得一种娱乐和享受的感觉,有时候甚至会牺牲任务的有效性,设计师强调的是一种出于人类本性的体验,使其与用户之间产生共鸣。

六总结和信息可视化未来发展

上述文章粗略地对信息可视化的一些基本概念做了概述,从最初的定义到一些分类,然后是认知原理和美学角度的信息可视化。希望用户能够迅速抓住信息可视化的大致轮廓,有一个初步和完整的认识。对于研究者们而言,更好地了解信息可视化领域的基础背景,为选择研究范围和未来研究打下基础。下面是一段对于信息可视化未来的畅想。

未来信息可视化的展示会更加个性化和私人化,为用户提供实时便捷的信息。信息可视化的表现形式将不会仅限制于2D空间,而是更注重整合的交互式体验。无论信息可视化怎样服务于我们的未来,它都将是理解和改变世界的一个可靠的工具。

花费一生的时间在信息的洪流之中,在内部空间中来回流动是不是一种选择。人们和公司越来越理解大数据的价值,教育正在改变,不断适应新技术和工具,形成路径,获得开放的信息源,对抗信息高墙。当新的一代掌握大局时,信息图形将会变得很普通。革命将会是可视化的。

每家每户都将有一个网络化数字日历/待办事项列表(包括锥子,独轮车和飞行棋)。日历将同步每个人的电子邮件和朋友、熟人甚至是敌人的方位。我们将在睡前和一早起来看到这些信息——就像我们习惯于在那些智能设备(智能手机、平板电脑、笔记本)上做的事情一样——浏览我们个性化的屏幕,可视化我们的饮食偏好,交叉引用医生的营养建议,链接我们的智能购物清单筛选喜爱的食物,编制每月食物摄入量,并反馈到我们的医疗记录。当然,它会显示为一系列智能的信息图形,这些都为我们在社交媒体时代快速处理信息提供了便利。信息可视化将不断扩展它的应用范围,不断深入我们的日常生活,总有一天,它会成为我们生活中司空见惯的事情,我们生活的一部分,相信这一天并不远了(SarahSlobin,2011)。

参考文献

[1]CaRD,S.K.,maCKinLaY,J.D.&SHneiDeRman,B.1999.ReadingsininformationVisualization:UsingVisionto

think,morganKaufmann.

[2]FeKete,J.D.,VanwiJK,J.,StaSKo,J.&noRtH,C.2008.theValueofinformationVisualization.information

Visualization,1-18.

[3]GaViRia,a.R.2008.whenisinformationVisualizationart?DeterminingtheCriticalCriteria.Leonardo,41,479-482.[4]HoRnBK,K.&HeRtZUm,m.2011.thenotionofoverviewininformationVisualization.internationalJournalof

HumanComputerStudies,69,509.

[5]LaU,a.&moeRe,a.V.towardsamodelofinformationaestheticsininformationVisualization.information

Visualization,2007.iV’07.11thinternationalConference,4-6July20072007.87-92.

[6]LeRneR,e.2011.theFutureofDataVisualization.print,65,62-68.

[7]min,C.,eBeRt,D.,HaGen,H.,LaRamee,R.S.,VanLieRe,R.,ma,K.L.,RiBaRSKY,w.,SCHeUeRmann,G.&SiLVeR,D.2009.Data,information,andKnowledgeinVisualization.ComputerGraphicsandapplications,ieee,29,12-19.

[8]oFFenHUBeR,D.2010.Visualanecdote.Leonardo,43,367-374.

[9]poUSman,Z.,StaSKo,J.t.&mateaS,m.2007.CasualinformationVisualization:DepictionsofDataineverydayLife.VisualizationandComputerGraphics,ieeetransactionson,13,1145-1152.

[10]SHiHU,X.&FanG,S.optimizationForinformationVisualizationBasedonVisualthinking.2011.ieee,4243-4247.[11]VonLanDeSBeRGeR,t.,KUiJpeR,a.,SCHReCK,t.,KoHLHammeR,J.,VanwiJK,J.J.,FeKete,J.D.

&FeLLneR,D.w.2011.VisualanalysisofLargeGraphs:State-of-the-artandFutureResearchChallenges.ComputerGraphicsForum,30,1719-1749.

[12]waRe,C.2004.informationVisualization:perceptionForDesign,morganKaufmann.

[13]Yi,J.S.,KanG,Y.,StaSKo,J.t.&JaCKo,J.a.UnderstandingandCharacterizinginsights:HowDopeopleGaininsightsUsinginformationVisualization?,2008.aCm,4.

[14]VeRena,2007.infosthetics:thebeautyofdatavisualization,

http://pingmag.jp/2007/03/23/infosthetics-form-follows-data/

[15]BoBDUGGan,2012.isDataVisualizationtheFutureofart?

http:///picture-this/is-data-visualization-the-future-of-art

计算机视觉概述篇4

关键词:移动机器人;自然路标提取;路标描述符;meanShift

中图分类号:tp242.6文献标识号:a文章编号:2095-2163(2015)01-

abstract:LandmarkextractionandmatchingisbasisofvSLam.amethodoflandmarkextraction,localfeaturedescriptionandfastmatchingbasedon3Dinformationoffeaturepointsisproposed.Robotobtainsimagesofenvironmentviabinocularvision,extractingfeaturepointsfromleftandrighteyeimages,matchingfeaturepointsofthetwoimages.three-dimensionalinformationofeachmatchedpointsunderleftcameracoordinatesystemisbuilt.Fieldofviewconstraintruleisproposedtofilteringpoints.then,themethodofnaturallandmarkextractionbasedonimprovedmeanShiftalgorithmisdiscussed.thepaperproposesalandmarkdescriptor,whichcanachievefastmatchingofthetwoclustering.thismethodcanextractnaturallandmarksinunstructuredenvironment,toleratingrelativelylowaccuracyofposeestimation.

Keywords:mobileRobot;naturalLandmarkextraction;LandmarkDescriptor;meanShift

0引言

同时定位和地图创建(SimultaneousLocalizationandmapping,SLam)是实现机器人自主导航的一个关键技术[1]。SLam技术主要采用视觉[2]、激光[3]等传感器以实现环境感知,尤其是基于视觉的SLam技术(vSLam)具有的对环境无侵性、获取环境信息的丰富性、以及成本低廉等显著优势,使其受到研究学界的广泛关注和高度重视。

vSLam主要采用路标方法,路标的自动提取与快速匹配即是其中的基础性问题。基于特征点的路标的表示方法主要分为两类。在此,可做如下具体分析:

一类以提取出的特征点直接作为路标,这类方法构建的地图路标的特征点数量较多,进行场景匹配的运算量也随之较大。重点成果则有:文献则针对单目视觉提取的特征点给出了统一逆深度参数方法来准确表达其不确定性。

另一类路标表示法是通过对提取的特征点进一步聚类,再将获得的聚类整体作为一个路标。相应成果有,文献[11]提出了一种基于角点聚类的自然路标局部特征提取其匹配算法。本文则基于对特征点聚类的思路,进一步提出了一种基于三维信息对特征点进行聚类分析形成路标、对路标进行局部特征描述与快速匹配的方法。

1特征点及其三维信息的获取与预处理

机器人使用参数相同的两个摄像机获取环境图像,对图像进行特征点选取与过滤,又采用双目视觉原理获得特征点对应空间点的三维信息。

1.1特征点的选取

本文采用SURF算法对左右目摄像机获得的图像分别进行特征点提取,基本可以达到实时处理的要求[12]。令由左目获取的图像标记为,由的特征点组成集合,同理右目图像的特征点组成集合,因为两摄像机是对同一场景进行拍摄,这就使得提取的特征点大致相同。为了计算特征点对应空间点的三维信息,需要找到左目图象的特征点在右目图像中的对应点以获得该点在双目中的视差,即某一点在两幅图像中相应点的位置差。

以中的点为基准与中的点进行匹配,使之一一对应,未获匹配的表示该点在其中一目中看不到。匹配上的特征点、组成特征点对并入集合中,记为主特征点。

1.2特征点对应空间点的三维信息的获取

特征点对对应的空间点记为,由所有空间点组成的集合记为。摄像机坐标系的原点在摄像机镜头的光心处。为简化计算,令左右镜头的参数相同,两摄像机光心在同一个平面上,在左摄像机坐标系下的三维坐标信息可以利用视差原理获得:

其中,是空间点p在左摄像机坐标系下的三维坐标,b为左右摄像机的基线距,d为视差,f为焦距,u1、v1为特征点在左右视觉中的图像坐标。点的三维坐标在聚类过程中将会用到。而提取路标后、进行存储时,应将所有空间点在摄像机坐标系下的坐标转换为世界坐标系下的坐标。

2自然路标的提取与描述

2.1基于改进meanShift算法的特征点聚类提取路标

已建立在摄像机坐标系下的坐标,根据这些点的相对空间位置进行聚类分析以提取路标。meanShift算法因为运算量小,计算速度快,且有一定的鲁棒性,更为适合进行特征点聚类。但却需要对该算法加以改进,就使得算法可以根据不同特征点的聚合情况,相应产生不同数量的聚类。

meanShift可以理解为一个核密度估计的过程,即将空间点看作采样得到的数据点,并将单位体积内的空间点数看作概率密度,由此求取概率密度最大的点集合就完成了聚类。每个点X的概率密度可以表示为:

其中,为核密度函数,k可取高斯函数,是以点为圆心,即为半径的球型区域内的点,为聚类半径,可以看作parzen窗口尺寸,则为半径内的空间点的个数。

欲求概率密度最大的点,可先对求导,使则可求得极值点,令,有

当,即可近似求得点概率密度的极值点,而以其为中心点,半径的区域内的点将形成一个聚类。其中,为阈值。

考虑到自然路标有大有小,应保证聚类内最少包含个特征点数,否则形成的聚类特征点太少,将导致路标不稳定且不利于路标之间的区分,而且更不利于定位。此后,在聚类过程中将自动调整半径。如果以点为圆心,半径内特征点数,则以步长增加半径,直至,可称为增长半径。其中,为聚类中最少特征点数,为聚类最大半径。

一般情况下,聚类半径长度未增长到最大半径时,特征点数与已经满足要求了,此时聚类已经形成,但存在半径再适当扩大仍然可能有特征点的情况,为此提出聚类进行小幅度扩张的应对策略。如果有距离聚类较近的点与聚类的距离小于,可将聚类半径增加以包括该点,并重复该过程。扩张幅度,即可取。如果在下一步扩张了的聚类范围内没有更多的点或者超过了最大聚类半径限制,则随即停止该扩张过程。

组成路标的特征点分布范围半径也应该控制在一定范围内,这与自然环境中作为物体多会有一定尺寸限制现象相吻合。本文取

其中,为聚类初始半径。

确定一个聚类后,从未访问过的特征点中随机选择一点作为中心,继续寻找下一聚类,直至未访问过的点的数量。

2.2聚类描述符

考虑使用一个快速索引匹配路标的方法,问题可以描述为已知一组形成聚类的点的三维坐标,设计一个具有唯一性和旋转不变性的描述符,并且该描述符应在两个聚类匹配过程中有充分的区分度。

本文基于空间点的分布来表征描述符。由聚类中心指向组成聚类的各个特征点形成了一组向量,向量数学原理如式(6)所示,三维空间实现则如图1所示。

将聚类的区域平分若干份,依次统计各个区域内向量,得到一个特征向量。其对应数学表示则如式(6)所示。

在图2中,以步长0.5滑动窗口,取绝对值最大的窗口方向为主方向。以聚类的主方向为基准方向,围绕聚类中心的x轴,再取逆时针为正方向,而将整个聚类按为跨度划分作24个区域,并且分别重新计算各个区域的向量的模与高斯核函数的卷积,将其组成一个24维的向量,该向量即为该聚类的描述符。

3路标匹配过程

机器人在环境中移动时,对获取的图像先进行预处理,估计自己的位姿,并根据当前位姿到地图数据库查询之前机器人以该位姿观察到的路标。令当前位姿为,为保证找到路标,可查询符合如下条件的路标,具体是:,,。

对当前提取的环境的特征点进行聚类,计算该聚类描述符,并与数据库中对应路标的描述符进行匹配,在误差允许的范围内如果实现了匹配,说明找到了路标,则取出每个点的信息,对已然匹配的两个聚类中的各个点进行二次匹配,对获得匹配的点的世界坐标即可认定为一致,并且是以数据库中的坐标为基准。根据机器人与每个点的距离、每个点的世界坐标。

4实验结果及分析

本文使配有双目视觉的移动机器人在实验室环境中运行而实现自然路标的提取。图3为左右目特征点提取与匹配结果,可以看到在初步的匹配后,有许多误匹配的点,需要对其进行高质量过滤。

应用视差约束,视场约束等规则过滤后的结果,剔除了大多数明显错误的匹配点,如图4所示。

对过滤后的特征点进行聚类?设定初始半径为25cm,半径增长步长为10cm,聚类结果如图5所示。为了直观起见,将聚类得到的特征点对应的图像中的点标出,如图6所示。

需要注意的是,由于机器人位姿不同,导致对同一个物体的观察角度出现差别,当观察角度差别较大时,会出现聚类结果不同的现象,因为物体的不同侧面的特征点不可能完全相同。如果在匹配过程中,使用原有路标的靠近聚类中心的特征点进行引导聚类,无法聚类成功或者无法匹配成功,说明需要建立新的路标,并更新路标库。

5结束语

利用图像特征点的三维坐标信息进行聚类,可以有效地将空间距离相近的点归为一个路标,在机器人由于位姿变化导致视角不同时,仍然可以较大概率匹配到原先观察到的路标。经过改进的meanShift算法根据为不同的场景产生合适的数量不等的路标,可以很好地适应复杂环境。本文提出的路标描述符可以有效提高路标匹配速度,避免重复存储相同路标。

参考文献:

[1]KortenkampD,BonassoRp,murphyR.ai-basedmobilerobots:casestudiesofsuccessfulrobotsystems[m].Cambridge:mitpress,1998.

[2]黄庆成,洪炳镕,厉茂海,等.基于主动环形闭合约束的移动机器人分层同时定位和地图创建[J].计算机研究与发展,2007,44(4):636-642.

[3]冯肖维,方明伦,何永义,等.移动机器人自然路标特征提取方法[J].机器人,2010,32(4):540-546.

[4]钱堃,马旭东,戴先中,等.基于显著场景BayesianSurprise的移动机器人自然路标检测[J].模式识别与人工智能,2013,26(6):571-576.

.Robotics,ieeetransactionson.2005,21(3):364-375.

[7]林睿.基于图像特征点的移动机器人立体视觉SLam研究[D].哈尔滨:哈尔滨工业大学,2012.

[8]SHaRmaK,mooni,etal.extractionofvisuallandmarksusingimprovedfeaturematchingtechniqueforstereovisionapplications[J].ietetechnicalReview.2012,29(6):473-481.

[9]moZoS?m,GiLa,etal.interestpointDetectorsforVisualSLam[C]//12thConferenceoftheSpanishassociationforartificialintelligence,SpringerBerlinHeidelberg.2007:170-179.

计算机视觉概述篇5

【关键词】校园网基础设施Vi设计

前言:随着高校校园计算机信息化的不断发展,校园网络建设工作也在全国范围内得以广泛开展,进而成为校园管理和获取信息资源的重要方式。在此背景下,如何以科学、合理的校园网视觉识别系统来帮助校园网用户实现对各类网络基础设施的识别,进而提高教职员工与学生上网效率和上网安全,已成为当前校园网建设的关键工作。

一、视觉形象识别系统概念

Vi,即视觉形象识别系统概念的提出源于企业视觉识别系统,起源于上世纪六十年代的欧洲,在当时,其与当时企业识别系统,即Ci的概念并不具有明显的界限,随着互联网时代的到来,视觉形象识别系统成为了一项独特的体系,即以标准字、标志、标准字体和标准色为主而展开的一项完整的视觉表达体系,又称为视觉识别系统[1]。在网络层面,Vi则是通过借助相对静态的且富有视觉化的具体传播方式,对各项网络基础设施有组织、有计划地进行标志设计,使公众能迅速了解整个网络体系,并对其产生深刻印象,进而达到准确识别各项网络基础设施目的一类视觉形象识别系统。

二、视觉形象识别系统的构成

(1)色彩。色彩是校园网基础设施Vi中的重要要素,其具有较强的视觉导向作用,通过对人的视觉器官进行刺激,从而使人产生视觉的冲动或是联想,通过将看到的色彩与大脑中存储的相应色彩对应的设施进行对比和整合,从而辨认出具体的网络基础设施。(2)造型是校园网基础设施Vi的另一重要部分,根据网络基础设施的类型、属性和特点,对其视觉识别系统的标志造型予以设计和构造,需要说明的是,对于造型的构造不仅应符合人机工程学的相关原理,还应突出以人为本的核心设计理念,在使标志造型美观、得体的同时,给人以较强的舒适度,增强视觉效果。(3)识别导向系统。对于校园网管理人员和维护人员而言,其需要依据各类设备标志符号来提高自身对设备位置确定的速度和精度,在此情况下,视觉识别系统则是在校园网这一环境中通过构建导向标志而形成的一套完整、统一和连续的符号。

三、校园网基础设施Vi设计

1、计算机机房。计算机机房是校园网的重要基础设施,其是学生上机操作和教师上机指导的重要场所,同时,也是故障发生率和维修工作量最大的校园网基础设施。因此,对其视觉识别系统的设计至关重要,不仅需要考虑网络管理与维护人员维修和学生与教职工使用时识别的便利性,而且还应注重机房平时维护与管理的效率与安全。为此,分别设计图1与图2相结合的视觉识别标识。

2、路由器。路由器是校园网中的另一核心设备,其以当前信道的具体情况跟为依据,对路由进行自动选择和设定,从而以最佳路径将网络信号发送至用户端,使得用户端能够通过登录服务器实现网络访问。相较于维修阶段计算机机房标识符的红色标识符,路由器大都是供用户上网所用,强调的是网络的畅通性,故将其视觉形象识别标识符的主色调设置为蓝色。在此设计中,不仅考虑了路由器实物的造型以及标志的整体色调,而且也对路由器的使用方法和功能做出了进一步的标注,为校园网用户的网络接入奠定了良好的视觉识别基础[3]。

3、交换机。交换机安置在校园网的数据链路层,主要负责进行数据的物理编址和错误检验,同时对帧序列进行排列控制。通常情况下,校园网的主干网大都以具有三层交换功能的吉比特以太网交换机为主,从而对校园用户的用网需求予以较好地满足。其具Vi设计形式的交换机标识符,以深蓝色和红色线为主色调,将红色连接线在各以太网交换机间进行穿插,以表示交换机的“交换之意”,即物理编址与错误检验,同时,以多根线条突出交换机的标识效果,也为校园网的管理与维护人员对交换机的日常监测、维修和养护提供了较大便利。

结论:本文通过对视觉形象识别系统的概念进行说明,在对其相关构成要素予以说明的基础上,分别对校园网基础设施的计算机机房、路由器和交换机等进行了详细的Vi设计。研究结果表明,科学的校园网基础设施Vi设计对于提高校园网的运行、维护效率和确保校园网的运行安全具有重要的作用和意义,未来,还需进一步加强对校园网基础设施的Vi设计,为促进校园网的健康、稳定发展奠定良好基础。

参考文献

[1]冷俊敏,付国,荆振宇.ipv6试验网络的设计与实现[J].计算机工程与设计,2013,08(01):1850-1852.

计算机视觉概述篇6

摘要:基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程:特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。

关键词:特征选择;运动表征;行为识别;高层行为与场景理解

abstract:Humanmovementanalysisfromvideosequencesisanactiveresearchareaincomputervisionandhumanmotionunderstandingisafuturedirectionofprospectivestudyasithasmanypotentialapplicationdomainssuchassmartsurveillance,humancomputerinterface,virtualrealitycontendbasedvideoindexing,etc.Humanactionunderstandingisgenerallypidedintothreefundamentalsubprocesses:featureextractionandmotionrepresentation,activityrecognitionandhigherlevelactivityandsceneunderstanding.thispaperanalyzedthestateoftheartinhumanactionunderstandingindetailfromthreefundamentalprocesses.attheend,providedandanalyzedsomedetaileddiscussionsonvitalproblemsandfuturedirectionsinhumanactionunderstanding.

Keywords:featureextraction;motionrepresentation;activityrecognition;highlevelactivityandsceneunderstanding

0引言

近年来,人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。目前,在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署(DefenseadvancedResearchprojectsagency,DaRpa)设立了视觉监控重大项目VSam(visualsurveillanceandmonitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解技术;实时视觉监控系统w4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟Framework5程序委员会设立重大项目aDViSoR系统[8],旨在开发一个公共交通(如地铁、机场)的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000年,DaRpa又资助了HiD(humanidentificationatadistance)计划[9],其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别,从而增强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(UniversityofReading)[10]先后开展了ReaSon(robustmethodsformonitoringandunderstandingpeopleinpublicspaces)、etiSe(evaluationofvideosceneunderstanding)、iSCapS(integratedsurveillanceofcrowdedareasforpublicsecurity)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等;此外还有能够对人进行跟踪与行为理解的实时系统pfinder(personfinder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目aVitRaCK(aircraftsurroundings,categorizedvehicles&inpidualstrackingforapron’sactivitymodelinterpretation&check)[12]等。国内在该领域的研究起步相对要晚,但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面,一些国际权威期刊如pami、ip、iJCV、CViU、iVC和重要的学术会议如CVpR、iCCV和iCpR等将智能化视频监控技术研究,尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。

人运动视觉分析是利用计算机技术从包含人的图像序列中检测、分类、跟踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目标当前处于哪种行为模式,并利用语言进行描述,以及判断该行为是否属于异常行为,其属于高层处理部分。当前,人行为理解与描述受到了广泛关注,发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是跟踪器中像素测度与行为描述之间的桥梁,是使计算机向更加人性化(从“lookingatpeople”向“understandingpeople”)转变的关键所在。

通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的理解。

随着人行为理解研究的不断发展和深入,对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管aggarwal[24]、Gavrila[25]、moeslund[26]和Hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向,促进行为理解技术的发展,本文从行为理解的一般性处理框架出发,对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。

1特征选择与运动表征

在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。

1.1特征选择

表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见,目前行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。

基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态,然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定,对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序列中提取出目标运动特性(时分)信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明,运动特征具有静态形状特征无法比拟的优势,即使是在远距离或恶劣的能见度情况下和最小运动系统——mLD(movinglightdisplay)[48],人能够根据运动模式轻松地区别和识别目标的运动类型,而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征,所以,为了充分利用形状特征和运动特征各自的优势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也有学者将其归类于运动特征。

1.2运动表征

人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成基于外观形状特征的和基于运动特征的。

1.2.1基于外观形状特征的运动表征方法

依据是否利用人体形状模型的先验知识,基于外观形状的运动表征方法又可分成基于模型和基于外观特征(或基于视觉特征方法)两类。

基于模型方法的核心思想是首先建立描述空间中人体形状模型;然后利用目标的形态特征和关节位置等信息,将模型与输入图像序列在首帧匹配,在后续帧的跟踪过程中,定义损失函数描述输入图像数据与模型之间的近似关系,并采用人体运动参数限制条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法集合了先验模型知识和当前输入,能够适合复杂行为的行为理解;但通常要求首先选择模型,初始化较难、计算量大,而且由于人运动的高自由度,容易产生局部最小值,很难找到全局最优且鲁棒的模型参数,此外由于在后续的跟踪中存在累计误差,不能分析、跟踪长序列运动。

基于外观方法并不试图恢复人体运动的结构模型,而是直接从图像中提取物体的二维空间信息,如高度、宽度、侧影轮廓和颜色等,并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。在这类方法中,形状分析理论常用来描述运动目标的形状变化特征(有关形状分析请参考文献[62])。常用的形状分析方法有质心—边界距离[34,36]、傅里叶描述符[41]、形状上下文[42]和统计形状分析[32,35,63,64]等。其中,质心—边界距离方法使用一维函数编码从形状的质心到形状边界点的距离,这种描述符简单但不能精确地对非凸起形状进行编码,如质心与一个边界点之间的距离连线可能与另一个边界点相交,造成细节的丢失。poppe等人[41]提出用傅里叶描述算子恢复人姿态;其思想是用固定的边界采样点对人体二维侧影轮廓进行采样,并对采样点进行傅里叶变换,利用变换后傅里叶系数的低频部分描述形状的大体特征,用高频部分来反映形状的微观特征即详细特征。由于傅里叶描述算子只能描述单个闭环曲线,这种方法一般用于描述外部边界点;在噪声环境下,傅里叶转换性能不是很好。mori和malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来恢复人体运动的三维姿态。一个点的形状上下文算子就是试图捕捉点集中其他点相对于该点的分布,它是一种基于内部或外部边界采样点的局部描述算子。傅里叶描述算子和形状上下文算子具有平移、旋转和尺度不变性。与傅里叶算子和形状上下文描述算子不同的是,Hu[66]提出一种基于区域的不变矩理论,并构造出共七个不变矩,它们具有平移、旋转和缩放不变性,目前已经广泛应用于图像的模式识别中。poppe和poel[67]对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮廓描述上的性能进行了比较,并且实验结果表明傅里叶描述算子和形状上下文直方图在形变侧影描述上比Hu更具有优势。20世纪70年代后期,Dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[64]进一步讨论了投影形状和不变量,以及形状模型、特征和它们各自在高层视觉中的作用。Jin等人[32]用统计形方法描述每帧中的目标轮廓,并用完全procrustes均值形状作为极点,构造一个与数据集近似的线性空间——切空间;然后用这个线性化的轮廓作为训练数据去学习动态系统、估计系统参数,从而识别人行为。

此外,目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。n.Vaswani等人[68]提出用形状变化的动态特性来建模和分类动作;Liu等人[69]提出在傅里叶描述算子的基础上建立自回归模型学习形状变化的动态信息;基于统计形状理论,Veeraraghavan等人[35]提出用自回归模型(aR)和平稳自回归模型(aRma)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状序列之间的相似性测量,取得了较好的分类效果。

基于外观特征方法不要求特定的模型,比较简单,能够适用于大量的环境条件下。但外观特征方法由于没有模型先验信息限制,很难建立连续帧之间的特征对应关系,并且很难区别信号和噪声,一般对噪声敏感。此外,外观特征受视角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。

1.2.2基于运动特征的运动表征方法

基于运动特征的表征方法可以细分为:

a)基于预先确定区域(如腿、头)跟踪的运动轨迹分析方法。其关键是运动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且在随后图像帧中进行跟踪,多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹;然后对轨迹进行参数化处理,如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性。

b)基于非预先确定的目标区域运动分析方法。其最典型的代表是光流法[44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。它通过计算图像序列中连续两帧亮度信息来得到,指的是图像亮度模式的表观(或视在)运动(apparentmotion)。例如Zhu等人[47]提出用光流直方图来描述动作的运动信息,然后用支持向量机作分类器识别运动员的击球动作。光流法在无须背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪。光流计算的基本等式是假设相邻两幅图像中对应两点的灰度不变得到的。在这个假设条件下首先要求两幅图像相邻时刻之间的间隔是很小的(几十毫秒之内),并且要求场景光照均匀。此外光流法的计算量较大。

时空特征不仅包含人动作姿态的空间信息(人体躯干和肢体的位置、方向等),而且还包含运动的动态信息(人体的全局运动和肢体的相对运动),从而避免了光流场计算可能遇到的问题(包括孔径、全局平滑性约束、奇异性等)和外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bobick和Davis[52]集合时空运动特征,提出了用运动历史图(mHis)和运动能量图(meis)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反映运动发生的位置。文献[53,54]则提出用迭代滤波(recursivefiltering)和帧分组(framegrouping)来描述运动信息。用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像,其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度;帧分组方法思想是单独分类视频切片中的每个滤波图像,然后用多数投票方法分类这些已标志的滤波图像的运动类型。

基于运动特征和外观形状特征表征的方法都有各自的缺点,基于运动特征能够描述人的近似运动方向和轨迹等,但很难准确、稳定地捕捉目标运动特性;另一方面,外观形状特征能够描述人的姿态信息,但由于没有运动信息,描述行为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人行为进行建模和识别。

2行为识别

行为识别问题可以简单地看做是时变特征数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配,那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样,学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。目前,行为识别方法一般可以分成静态识别和动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列,其常用的方法有模板匹配方法;动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态,这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hiddenmarkovmodels,Hmms)、动态贝叶斯网络(dynamicBayesiannetwork,DBn)等。这些方法可以总归为基于状态转移的图模型方法。

2.1基于模板匹配方法

基于模板匹配方法是用从输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似度比较,选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果。Bobick和Davis[52]将图像序列目标运动信息转换成运动能量图像(mei)和运动历史图像(mHi),采用马氏距离度量测试序列与模板之间的相似性;masoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投影到特征空间,然后用Hausdorff距离度量测试序列与参考序列之间的相似性。此外,还有学者采用procrustes距离[50]来度量测试序列与模板之间的相似性。这些最近邻方法尽管在一定程度上反映了运动的时分关系,计算量小,但并没有对运动的时分限制条件进行建模,鲁棒性较差。为此,Veeraraghavan等人[35]用动态时间规整(dynamictimewarping,Dtw)来匹配运动序列。Dtw是一种时变数据序列匹配方法,常用于微生物学的Dna匹配、字符串和符号的比较以及语音分析[77]。Dtw算法的思想是给定参考模板特征矢量序列与输入特征矢量序列,寻找一个最佳的时间规整函数,使得输入序列的时间轴映射到参考模板的时间轴上总的累计失真最小。对Dtw而言,即使测试序列模式与参考序列模式的时间尺度不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列与参考序列之间的模式匹配。Dtw具有概念简单、算法鲁棒的优点,能够对图像序列进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的距离来识别动作和步态,取得了很好的分类结果。然而,Dtw算法计算量较大,缺乏考虑相邻时序之间的动态特性,而在实际中,运动序列中相邻序列在时间和空间上有高度的相关性。

基于模板匹配方法计算复杂度低、实现简单,但缺乏考虑运动序列中相邻时序之间的动态特性,对于噪声和运动时间间隔变化敏感。

2.2基于状态转移图模型方法

基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的一个节点或状态,对应于各个姿势或运动状态节点之间的依存关系通过某种概率联系起来,这样任何运动序列可以看做在图中不同节点或状态之间的一次遍历过程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝叶斯网络[96~102]、人工神经网络[45,103]、有限状态机[104,105]和置信网络[106]等。本文对前三种常用方法进行总结分析。

2.2.1隐马尔可夫及改进模型

与Dtw相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。Hmms用马尔可夫过程建立相邻实例之间的相互关系,并假设观察序列由固定个数的隐状态构成的隐过程决定,是一种随机状态机。Hmms的使用涉及到训练和分类两个阶段。训练阶段包括指定一个隐马尔可夫模型的隐藏状态数,并且优化相应的状态转换和输出概率,以便于产生的输出符号与对特定运动类别之内所观察到的图像特征相匹配。受Hmms在语音数据分析[80]成功应用的影响,研究人员将Hmms用于视觉识别[73,81~83]。Bregler[81]基于人体动力学在不同抽象等级的统计分析,提出了用一个综合性的网络来识别人的运动:在底层处理阶段,以混合高斯模型来估计基于运动、彩色相似度和空间接近程度等小区域块,不同的身体部分区域在图像序列中被跟踪;在中层处理阶段,具有一致运动特性的区域被匹配为动力学系统中的简单运动(如行走被认为是两个简单运动的组成:一个是腿的支撑,一个是腿在空中的摆动);在高层处理阶段,Hmms被用来作为这些中级动力系统的混合模型以表达复杂的运动,识别过程通过最大化Hmms的后验概率来完成。实验表明,在学习能力和处理未分割的连续数据流方面,Hmms比Dtw有更好的优越性。

Hmms有很强的输出独立性假设限制,其信号处理过程是一个单路马尔可夫过程,不能处理多个且相互依存的序列,导致其不能考虑上下文的特征,限制了特征的选择;而且其拓扑结构是事先给定的,它的模型参数需要用em算法来估计(Baumwelch算法);对观测矩阵的初始值比较敏感,如果初始值选择不当,会造成概率函数的局部最大值。另外,分类模型不灵活,不能处理运动中分层与共享结构。为了识别复杂动作与人们之间的交互行为,Brand等人[84]提出一种耦合隐马尔可夫模型(coupledhiddenmarkovmodels,CHmm)[84~86]来建模行为中两个相互关联的随机过程,并用CHmm对手势进行识别。结果表明,与传统Hmms相比,CHmm具有更好的分类效果,计算速度快,而且对初始条件不敏感。Fine等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模型(hierarchicalhiddenmarkovmodel,HHmm)。HHmm具有多层隐马尔可夫模型的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。nguyen等人[88,89]采用HHmm识别人的行为,并取得了很好的分类效果。此外还有抽象隐马尔可夫模型(abstracthiddenmarkovmodel,aHmm)[90]、可变长马尔可夫模型(variablelengthmarkovmodel,VLmm)[91]、熵隐马尔可夫模型[92,93]和分层隐马尔可夫模型(layeredhiddenmarkovmodel,LHmm)[94,95]等也被用于复杂行为识别。

2.2.2动态贝叶斯网络

由于Hmms不能有效处理三个或三个以上独立的过程[86],学者提出了Hmms的推广方法——动态贝叶斯网络(dynamicBayesiannetworks,DBns)[96]。动态贝叶斯网络是一种对随机过程描述的有向图解,通过网络拓扑结构反映变量间的概率依存关系及其随时间变化的情况,不受马尔可夫链的链状结构约束,因此不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模而不仅仅是一个隐藏状态变量,而且考虑了各个时刻间的转移概率,能够很好地反映特征之间的时序关系,适用于不确定性和概率性事物。所以动态贝叶斯网络逐渐成为人行为理解研究中一个有力的数学工具[97~102]。park和aggarwal[97]提出用层级贝叶斯网络方法识别两个人之间的动作。该方法在贝叶斯网络的低层估计被跟踪身体部分的姿态;然后在贝叶斯网络高层估计整个身体的姿态;最后用动态贝叶斯网络处理综合多个身体部分组成的状态。muncaster等人[102]提出一个一般的d-层动态贝叶斯网络识别复杂的事件,在每一层用确定性的退火聚类算法自动检测观测层的状态。文献[98,99]则用贝叶斯网络识别停车场和地铁监控环境下的复杂行为。

贝叶斯网络的主要优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。动态贝叶斯网络还可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系,而不影响训练算法本身,因此具有良好的可解释性,其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链,贝叶斯网络训练比较复杂。

2.2.3神经网络

人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理,在分析时变数据时具有很大的优势。Buccolieri等人[103]用神经网络对轮廓进行分析来识别人的姿态。由于神经网络通常需要用大量的数据来训练网络,研究学者在神经网络的基础上提出了时延神经网络(timedelayneuralnetwork,tDnn)。时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能;同时,时变序列的前述值被用来预测下一个值。由于大量数据集成为可能,时延神经网络的重点就可以放在时分信息的表达,这样由此导出的神经网络模型适合应用于处理序列数据。Yang和ahuja[45]应用时延神经网络于手势识别,并取得了较高的识别率。

除了上述两类方法,支持向量机(supportvectormachine,SVm)由于能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题,同时可以避免神经网络结构选择和局部极小点问题,成为20世纪90年代末发展最快的研究方向之一,并且在行为理解中也得到了充分的应用[47,54,107~109]。Cao等人[54]用SVm建立滤波图像分类器来对运动分类。文献[109]提出一种基于光流直方图运动描述算子,并用SVm训练分类器识别运动员的动作。

3高层行为与场景理解

尽管用上述行为识别方法能够识别较复杂的动作,但要理解“场景中在发生什么事情”等复杂行为与事件,不仅需要解释和理解视觉输入,还需要场景中相关信息与背景知识,尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上,解释和描述场景图像的内容,包括场景中人与人、人与物体的行为以及它们之间的时空关系,这也称为高层视觉。目前研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作,广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。VSam、pfinder和aVitRaCK等系统都具有场景理解与事件检测的功能。目前高层行为与场景理解的方法包括基于规则推理网络[33,105,106,110~113]、随机文法(包括随机上下文无关文法:stochasticcontextfreegrammar,SCFG)[114~116]、概率状态依存语法(probabilisticstatedependentgrammars,pSDG)[117]、因果分析[118]等。

Badler[105]提出一种基于运动动词的分层框架来分析运动。一个运动动词就是一种行为,而这些动词是预先定义在静态图像的规则基础上,用自动状态机建立起行为之间的联系。这种系统理论上可以解释人行为中的复杂事件,但系统仅仅在人工环境中进行测试。Kojima和tamura[111]则提出一种事件框架来识别单个人的动作。首先提取出人体头、身体和手的运动,定义事件帧(caseframe)来描述动作规则,从而建立起人运动姿态、位置信息与运动概念之间的对应关系。Hongeng等人[112]则提出事件是由动作线程构成,而且每个线程有单个角色执行,每个单一动作线程通过贝叶斯方法,利用角色的轨迹和运动块特性来识别,这样事件可以通过许多在时分限制上相关的动作线程来表达。Robertson等人[113]组合运动轨迹信息与局部运动描述算子,借助图像特征数据概率搜索方法来描述和识别动作,并用编码场景规则的Hmm平滑动作序列,这样通过计算当前动作序列下的Hmm概率来识别高层行为。基于规则的方法在动作分析中显示了其优点,但由于某些行为的模糊性,基于规则推理方法很难给每个行为定义准确的规则,而且不同的应用领域定义的规则也不相同。

随机文法由于能够从包括Hmm不能同时处理的多个过程中提取出有意思的行为,被用来有效地描述真实场景。ivanov和Bobick[115]提出两步策略来理解自动监控系统中的高层行为和事件。在低层处理部分用Hmm检测和识别简单的行为模式,并将输出向量映射为离散语法字母表;在高层部分则采用随机上下文无关文法模型分析、理解低层输出,最终实现行为理解。但这种方法受其语法的上下文无关约束的限制。复杂的行为,尤其是有目的的行为,其状态通常是前后相关的,也就是下面的行为依赖于当前的状态,这样使得行为并不是上下文无关的。此外,两步识别策略不支持从低层数据到高层理解的在线无缝概率推理。基于这样的缺点,nguyen等人[119]提出用抽象隐马尔可夫记忆模型(abtracthiddenmarkovmemorymodel,aHmem)识别复杂室内环境中人的高层行为。park和aggarwal[118]提出一种事件语义学来表达和识别人之间的交互行为,并用语言学中的动词元结构按每三个运动目标一组的结构形式来描述运动。时空限制用于决策树来识别特殊的交互行为。在这个框架下,人的动作以“主语+动词+宾语”结构来自动表达,同时人的交互行为根据人动作之间的因果语义关系来描述。

当前对高层行为与场景理解的研究还很不完善,高层行为与场景理解研究受一些视觉基础问题的束缚,如像素级的分割、遮挡以及处理可变性的能力。目前的研究都是针对特定领域应用的研究,有些只是提取场景信息高层的语义,不可能在任意图像中确定不同的景物。

4行为理解存在的问题与发展趋势

尽管近年来利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展,但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度[24,120]、行为发生的场景和人运动的模糊性(关于行为、事件、状态有着不同的概念)等因素的影响,使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展,其行为理解的研究进展比较缓慢。目前行为理解的研究仍处于初级阶段,即原子动作[29]分析,也就是简单日常标准动作如行走、跳、站起、坐等[30~37]和以人行为为目标的简单事件检测等[97,102,121~123]。其亟待解决的问题和未来的发展趋势有以下几个方面:

a)运动特征选择与表达。如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大,则会增加计算的复杂度;而选择特征过少,又可能不足以识别与理解人行为,而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的[28]。因此,能否借鉴人类的学习、识别与理解机理,定义一个动态特征模型,首先提取有关行为的主要特征,当这些特征不足以完成识别与理解时,系统逐步提取候选的细节特征;另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征[49,124],那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外,提取特征的不稳定性也为行为理解带来很大的困难,但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中,可视信息受干扰,变得敏感不可靠时,声音特征将为基于视频的行为理解提供一个很好的补充[125,126];在遮挡的情况下,基于多摄像机信息融合方法由于能够很好地解决遮挡问题,在行为理解研究[70~72]也将会得到快速的发展。

对于运动特征表征来说,不同复杂程度的运动通常会采用不同的运动表达方法,即使是同一种动作在不同的场合,由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法[127]来表征和分析运动,但计算量较大。

b)行为识别。目前人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少[54],而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如Hmms等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。

c)高层行为与场景理解。行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。

d)行为理解与生物特征识别相结合。在智能安全监控、智能人机交互中,行为理解与生物特征相结合显得更加重要,不但要求系统能够识别被监控对象的当前行为状态,而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别[50]、人脸识别等[128,129]给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。

e)算法评价。一般而言,鲁棒性、准确度、速度是人行为识别的三个基本要求,要求能够快速准确地识别运动且连续地工作,对于如噪声、光照、天气等因素的影响不能太敏感。但目前的识别方法更多关注的是识别率,对鲁棒性和速度两个指标研究要求很少。另外,对行为识别方法没有统一的视频测试序列,大部分研究方法都是具体问题具体分析,是用各自选择的视频序列进行实验分析,无法对提出的算法进行统一评价。

5结束语

人行为理解已经成为计算机视觉领域一个重要的研究方向之一,在智能监控、人机交互等方面的应用前景引起了广大科研人员的浓厚兴趣。本文从特征选择与运动表征、行为识别方法以及高层行为与场景理解三个方面总结了近年来人行为理解研究现状和进展。其中特征提取和运动表征可以归结为行为建模,即如何描述行为动作。目前的方法需要根据具体实际应用情况,在动作模型描述精确度和计算复杂度中折中,选择适当的方法来对行为建模。本文将行为识别算法细分成模板匹配方法、基于图模型的方法等,同时对各种常用的数据匹配方法进行逐一分析,并且讨论了目前的高层行为与场景理解的研究发展与现状。最后提出了目前行为理解存在的问题和未来的发展趋势。尽管当前行为理解研究取得了一定的进展,但依然处于萌芽阶段,需要提出新的方法来解决相关问题,提高行为理解的性能。

参考文献:

[[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.

[2]JaimeSa,SeBen.multimodalhumancomputerinteraction:asurvey[C]//procofieeeinternationalworkshoponHumanComputerinteractioninConjunctionwithiCCV2005.Beijing:[s.n.],2005.

[3]niJHoLta.meetings,gatherings,andeventsinsmartenvironments[C]//procofaCmSiGGRapHinternationalConferenceonVirtualRealityContinuumanditsapplicationsinindustry.2004:229-232.

[4]KittLeRJ,BaLLettem,CHRiStmaSwJ,etal.Fusionofmultiplecuedetectorsforautomaticsportsvideoannotation[C]//procofworkshoponStructural,SyntacticandStatisticalpatternRecognition.2002:597-606.

[5]tJonDRoneGoRoD,CHenYpp,pHamB.Contentasedvideoindexingforsportsapplicationsusingintegratedmultimodalapproach[C]//procofthe13thannualaCminternationalConferenceonmultimedia.2005:1035-036.

[6]CoLLinSR,Liptona,KanaDet,et-al.asystemforvideosurveillanceandmonitoring:VSamfinalreport,CmU-Ri-tR-00-12[R].[S.l.]:CarnegiemellonUniversity,2000.

[7]HaRitaoGLUi,HaRwooDD,DaViSLS.w4:realtimesurveillanceofpeopleandtheiractivities[J].ieeetransonpatternanalysisandmachineintelligence,2000,22(8):809-830.

[8]naYLoRm,attwooDCi.annotateddigitalvideoforintelligentsurveillanceandoptimizedretrieval:finalreport[R].[S.l.]:aDViSoRConortium,2003.

[9]HiD[eB/oL].www-static.cc.gatech.edu/gvu/perception//projects/hid.

[10]ReaSon[eB/oL].cvg.cs.reading.ac.uk/.

[11]wRenCR,aZaRBaYeJania,DaRReLLt,et-al.pfinder:realtimetrackingofthehumanbody[J].ieeetransonpatternanalysisandmachineintelligence,1997,19(7):780-785.

[12]BLaUenSteineRp,KampeLm.Visualsurveillanceofanairport’sapron:anoverviewoftheaVitRaCKproject[eB/oL].prip.tuwien.ac.at/~kampel/papers/blauoeagm04.pdf.

[13][eB/oL].nlpr-web.ia.ac.cn/.

[14][eB/oL].research.microsoft.com/asia/group/vc/.

[15][eB/oL].cis.pku.edu.cn/introduction.htm.

[16]SHeiKHY,SHaHm.Bayesianmodelingofdynamicscenesforobjectdetection[J].ieeetransonpatternanalysisandmachineintelligence,2005,27(11):1778-792.

[17]eLGammaLa,HaRwooDD,DaViSL.nonarametricmodelforbackgroundsubtraction[C]//procofthe6theuropeanConferenceonComputerVision.Dublin,ireland:[s.n.],2000:751-67.

[18]左军毅,潘泉,梁彦,等.基于模型切换的自适应背景建模方法[J].自动化学报,2007,33(5):467-473.

[19]JaVeDo,SHaHm.trackingandobjectclassificationforautomatedsurveillance[C]//procofthe7theuropeanConferenceonComputerVision.Copenhagen:[s.n.],2002.

[20]CHenYun-qiang,RUiYong,HUanGtS.multicueHmmUKFforrealtimecontourtracking[J].ieeetransonpatternanalysisandmachineintelligence,2006,28(9):1525-529.

[21]YanGtao,LiSZ,panQuan,et-al.Realtimemultipleobjectstrackingwithocclusionhandlingindynamicscenes[C]//procofieeeinternationalConferenceonComputerVisionandpatternRecognition.SanDiego,Ca:[s.n.],2005.

[22]wanGYongzhong,LianGYan,ZHaoChunhui,et-al.adaptivemulticuekerneltracking[C]//procofieeeinternationalConferenceonmultimedia&expo.2007:1814-1817.

[23]李培华.一种改进的meanShift跟踪算法[J].自动化学报,2007,33(4):347-354.

[24]aGGaRwaLJK,CaiQ.Humanmotionanalysis:areview[C]//procofieeenonrigidandarticulatedmotionworkshop.piscataway:ieeeComputerSociety,1997:90-102.

[25]GaVRiLaDm.thevisualanalysisofhumanmovement:asurvey[J].ComputerVisionandimageUnderstanding,1999,73(1):82-98.

[26]moeSLUnDtB,GRanUme.asurveyofcomputervisionbasedhumanmotioncapture[J].ComputerVisionandimageUnderstanding,2001,81(3):231-268.

[27]HUweiming,tantieniu,wanGLiang,et-al.asurveyonvisualsurveillanceofobjectmotionandbehaviors[J].ieeetransonSystems,man,andCyberneticspartC:applicationandReviews,2004,34(3):334-352.

[28]刘相滨,向坚持,王胜春.人行为识别与理解研究探讨[J].计算机与现代化,2004(12):1-5,27.

[29]BUXtonH,GonGShaogang.advancedvisualsurveillanceusingBayesiannetworks[C]//procofthe5thieeeinternationalConferenceonComputerVision.massachusetts:[s.n.],1995.

[30]BRemonDF,tHonnatm,ZUniGam.Videounderstandingframeworkforautomaticbehaviorrecognition[J].BehaviorResearchmethodsJournal,2006,38(3):416-426.

[31]ameRa,DUBoiSe,mitiCHea.arealtimesystemforhighlevelvideorepresentation:applicationtovideosurveillance[C]//procofSpieinternationalSymposiumonelectronicimaging,ConferenceonVisualCommunicationandimageprocessing.SantaClara:[s.n.],2003:530-541.

[32]Jinning,moKHtaRianF.Humanmotionrecognitionbasedonstatisticalshapeanalysis[C]//procofieeeConferenceonadvancedVideoandSignalBasedSurveillance.2005.

[33]eLBaSie,ZUoLong,meHRotRaK,et-al.Controlchartsapproachforscenariorecognitioninvideosequences[J].turkJelecengin,2005,13:303-310.

[34]FUJiYoSHiH,LiptonaJ.Realtimehumanmotionanalysisbyimageskeletonization[C]//procofthe4thieeeworkshoponapplicationsofComputerVision.1998:15-21.

[35]VeeRaRaGHaVana,RoYCHowDHURYaK,CHeLLappaR.matchingshapesequencesinvideowithapplicationsinhumanmovementanalysis[J].ieeetransonpatternanalysisandmachineintelligence,2005,27(12):1896-1909.

[36]CHenHS,CHenHt,CHenYiwen,etal.Humanactionrecognitionusingstarskeleton[C]//procofthe4thaCminternationalworkshoponVideoSurveillanceandSensornetworks.2006.

[37]wanGLiang,SUteRD.Learningandmatchingofdynamicshapemanifoldsforhumanactionrecognition[J].ieeetransonimageprocessing,2007,16(6):1646-1661.

[38]JUSX,BLaCKYmJ,YaCooBZY.Cardboardpeople:aparameterizedmodelofarticulatedimagemotion[C]//procofinternationalConferenceonautomaticFaceandGestureRecognition.1996:38-44.

[39]mittaLa,ZHaoLiang,DaViSLS.Humanbodyposeestimationusingsilhouetteshapeanalysis[C]//procofieeeConferenceonadvancedVideoandSignalBasedSurveillance.2003:263-270.

[40]CoRReaLp,CZYZJ,maRQUeSt,et-al.Silhouettebasedprobabilistic2Dhumanmotionestimationforrealtimeapplications[C]//procofinternationalieeeinternationalConferenceonimageprocessing.2005.

[41]poppeR,poeLm.examplebasedposeestimationinmonocularimagesusingcompactFourierdescriptors,tRCtit-05-49[R].enschede:Universityoftwente,2005.转贴于

[42]moRiG,maLiKJ.Recovering3Dhumanbodyconfigurationsusingshapecontexts[J].ieeetransonpatternanalysisandmachineintelligence,2006,28(7):1052-1062.

[43]CeDRaSC,SHaHm.motionbasedrecognition:asurvey[J].imageandVisionComputing,1995,13(2):129-155.

[44]BLaCKmJ,YaCooBY,JUSX.Recognizinghumanmotionusingparameterizedmodelsofopticalflow[m]//motionbasedrecognition.[S.l.]:Kluweracademicpublishers,1997:245-269.

[45]YanGmH,aHUJan.Recognizinghandgestureusingmotiontrajectories[C]//procofieeeinternationalConferenceonComputerVisionandimageUnderstanding.1999.

[46]eFRoSa,BeRGa,moRiG,et-al.Recognizingactionsatadistance[C]//procofieeeinternationalConferenceonComputerVision.nice,France:[s.n.],2003.

[47]ZHUGuangyu,XUChangsheng.actionrecognitioninbroadcasttennisvideo[C]//procofthe18thinternationalConferenceonpatternRecognition.2006.

[48]JoHanSSonG.Visualperceptionofbiologicalmotionandamodelforitsanalysis[J].perceptionandpsychophysics,1973,14(2):201-211.

[49]niUFeng,aBDeLmottaLeBm.Viewinvarianthumanactivityrecognitionbasedonshapeandmotionfeatures[C]//procofthe6thieeeinternationalSymposiumonmultimediaSoftwareengineering.2004.

[50]wanGLiang,ninGHuazhong,tantieniu,et-al.Fusionofstaticanddynamicbodybiometricsforgaitrecognition[J].ieeetransonCircuitsandSystemsforVideotechnology,2004,14(2):149-158.

[51]FantiC,ZwLniKmanoRL,peRonap.Hybridmodelsforhumanmotionrecognition[C]//procofieeeConferenceComputerandpatternRecognition.2005:1166-1173.

[52]BoBiCKaF,DaViSJw.therecognitionofhumanmovementusingtemporaltemplates[J].ieeetransonpatternanalysisandmachineintelligence,2001,23(3):257-267.

[53]maSoUDo,papaniKoLopoULoSn.amethodforhumanactionrecognition[J].imageandVisionComputing,2003,21:729-743.

[54]CaoDongwei,maSoUDot,BoLeYD.onlinemotionclassificationusingsupportvectormachines[C]//procofieeeinternationalConferenceonRoboticsandautomation.neworleans:[s.n.],2004.

[55]LapteVi,LinDeBeRGt.Localdescriptorsforspatiotemporalrecognition[C]//procofinternationalworkshoponSpatialCoherenceforVisualmotionanalysis.prague:[s.n.],2004.

[56]DoLL’aRp,RaBaUDV,CottReLLG,et-al.Behaviorrecognitionviasparsespatiotemporalfeatures[C]//procofthe2ndJointieeeinternationalworkshoponVisualSurveillanceandperformanceevaluationoftrackingandSurveillance.2005.

[57]BLanKm,GoReLiCKL,SHeCHtmane,et-al.actionsasspacetimeshapes[C]//procofieeeinternationalConferenceonComputerVision.Beijing:[s.n.],2005.

[58]GaVRiLaD,DaViSL.3Dmodelbasedtrackingofhumanupperbodymovement:amultiviewapproach[C]//procofinternationalSymposiumonComputerVision.1995:253-258.

[59]iSaRDm,BLaKea.Condensation-conditionaldensitypropagationforvisualtracking[J].internationalJournalofComputerVision,1998,29(1):5-28.

[60]DeUtSCHeRJ,BLaKea,ReiDi.articulatedbodymotioncapturebyannealedparticlefiltering[C]//procofieeeComputerSocietyConferenceonComputerVisionandpatternRecognition.1998.

[61]niYoGiS,aDeLSone.analyzingandrecognizingwalkingfiguresinxyt[C]//procofComputerVisionandpatternRecognition.1994:469-474.

[62]LonCaRiCS.asurveyofshapeanalysistechniques[J].patternRecognition,1998,32(8):983-1001.

[63]DRYDeniL,maRDiaKV.Statisticalshapeanalysis[m].[S.l.]:wiley,1998.

[64]DRYeni.Statisticalshapeanalysisinhighlevelvision[C]//procofimaworkshoponimageanalysisandHighLevelVision.2000.

[65]BeLonGieS,maLiKJ,pUZiCHaJ.Shapematchingandobjectsrecognitionusingshapecontexts[J].ieeetransonpatternanalysisandmachineintelligence,2002,24(4):509-522.

[66]HUmK.Visualpatternrecognitionbymomentinvariants[J].ieeetransoninformationtheory,1962,8(2):179-187.

[67]poppeR,poeLm.Comparisonofsilhouetteshapedescriptorsforexamplebasedhumanposerecovery[C]//procofthe7thieeeinternationalConferenceonautomaticFaceandGestureRecognition.Southampton:[s.n.],2006.

[68]VaSwanin,CHowDHURYaR,CHeLLappaR.activityrecognitionusingthedynamicsoftheconfigurationofinteractingobjects[C]//procofieeeConferenceonComputerVisionandpatternRecognition.2003.

[69]LiUChebin,aHUJan.amodelfordynamicshapeanditsapplications[C]//procofieeeConferenceonComputerVisionandpatternRecognition.2004.

[70]paRKS,tRiVeDimm.atwostagemultiviewanalysisframeworkforhumanactivityandinteractions[C]//procofieeeworkshoponmotionandVideoComputing.2007.

[71]tYaGia,potamianoSG,DaViSJw,et-al.Fusionofmultiplecameraviewsforkernelbased3Dtracking[C]//procofieeeworkshoponmotionandVideoComputing.2007.

[72]ZoUBan,BRemonDF,tHonnatm,et-al.multisensorsanalysisforeverydayactivitymonitoring[C]//procofthe4thinternationalConferenceonSciencesofelectronic,technologiesofinformationandtelecommunications.2007.

[73]BaSHiRFi,KHoKHaRaa,SCHonFeLDD.objecttrajectorybasedactivityclassificationandrecognitionusinghiddenmarkovmodels[J].ieeetransonimageprocessing,2007,16(7):1912-1919.

[74]RoBeRtSonn,ReiDi.ageneralmethodforhumanactivityrecognitioninvideo[J].ComputerVisionandimageUnderstanding,2006,104:232-248.

[75]YaCooBY,BLaCKmJ.parameterizedmodelingandrecognitionofactivities[J].ComputerVisionandimageUnderstanding,1999,73(2):232-247.

[76]CaRLSSonS,SULLiVanJ.actionrecognitionbyshapematchingtokeyframes[C]//procofworkshoponmodelsVersusexemplarsinComputerVision.2001.

[77]RaBineRL,JUanGB.Fundamentalsofspeechrecognition[m].[S.l.]:prenticeHall,1993.

[78]mURpHYKp.anintroductiontographicalmodels[R].2001.

[79]StenGeLm.introductiontographicalmodels,hiddenmarkovmodelsandBayesiannetworks[eB/oL].(2003-02-07).http:markusstengel.de/varions/uni/speech/tutorial.pdf.

[80]RaBineRLR.atutorialonhiddenmarkovmodelsandselectedapplicationsinspeechrecognition[J].procoftheieee,1989,77(2):257-286.

[81]BReGLeRC.Learningandrecognizinghumandynamicsinvideosequences[C]//procofieeeConferenceonComputerVisionandpatternRecognition.puertoRico:[s.n.],1997:568-574.

[82]YamatoJ,oHYaJ,iSHiiK.Recognizinghumanactionintimesequentialimagesusinghiddenmarkovmodel[C]//procofieeeConferenceonComputerVisionandpatternRecognition.Champaign,illinois:[s.n.],1992:379-385.

[83]toReYinBU,DeDeoGLUY,Cetinae.Hmmbasedfallingpersondetectionusingbothaudioandvideo[C]//procofieeeinternationalworkshoponHumanComputerinteraction.Beijing:[s.n.],2005.

[84]BRanDm,oLiVeRn,pentLanDa.Coupledhiddenmarkovmodelsforcomplexactionrecognition[C]//procofieeeinternationalConferenceonComputerVisionandpatternRecognition.1997:994-999.

[85]KRiStJanSSontt,FReYBJ,HUanGtS,et-al.eventcoupledhiddenmarkovmodels[C]//procofieeeinternationalConferenceonmultimediaandexpo.2000:385-388.

[86]oLiVeRn,RoSaRioB,pentLanDa.aBayesiancomputervisionsystemformodelinghumaninteractions[J].ieeetransonpatternanalysisandmachineintelligence,2000,22(8):831-843.

[87]FineS,SinGeRY,tiSHBYn.thehierarchicalhiddenmarkovmodel:analysisandapplications[J].machineLearning,1998,32(1):41-62.

[88]nGUYennt,pHUnGDQ,VenKateSHS,et-al.Learninganddetectingactivitiesfrommovementtrajectoriesusingthehierachicalhiddenmarkovmodel[C]//procofComputerVisionandpatternRecognition.SanDiego:[s.n.],2005:955-960.

[89]KawanaKaD,oKatanit,DeGUCHiK,et-al.HierarchicalHmmbasedrecognitionofhumanactivity[C]//procofmVa.2005.

[90]BUiHH,VenKateSHS,weStGa,et-al.trackingandsurveillanceinwideareaspatialenvironmentsusingtheabstracthiddenmarkovmodel[J].internationalJournalofpatternRecognitionandartificialintelligence,2001,15(1):177-195.

[91]GaLataa,JoHnSonn,HoGGD.Learningvariablelengthmarkovmodelsofbehavior[J].ComputerVisionandimageUnderstanding,2001,81(3):398-413.

[92]SminCHiSeSCUC,KanaUJiaa,LiZhiguo,et-al.Conditionalmodelsforcontextualhumanmotionrecognition[C]//procofthe10thieeeinternationalConferenceonComputerVision.2005.

[93]BRanDm,KettnaKeRV.Discoveryandsegmentationofactivitiesinvideo[J].ieeetransonpatternanalysisandmachineintelligence,2000,22(8):844-851.

[94]oLiVeRn,HoRVitZe,GaRGa.Layeredrepresentationsforhumanactivityrecognition[C]//procofthe4thieeeinternationalConferenceonmultimodalinterfaces.2002:3-8.

[95]ZHanGDong,GatiCapeReZD,BenGioS,et-al.modelinginpidualandgroupactionsinmeetingswithlayeredHmms[J].ieeetransonmultimedia,2006,8(3):509-520.

[96]mURpHYK.DynamicBayesiannetworks:representation,inferenceandlearning[D].Berkeley:UniversityofCalifornia,2002.

[97]paRKS,aGGaRwaLJK.RecognitionoftwopersoninteractionsusingahierarchicalBayesiannetwork[C]//procofaCmSiGmminternationalworkshoponVideoSurveillance.Berkeley:[s.n.],2003:65-76.

[98]DUYoutian,CHenFeng,XUwenli,et-al.interactingactivityrecognitionusinghierarchicaldurationalstatedynamicBayesiannetwork[C]//procofpacificRimConferenceonmultimedia.2006:185-192.

[99]moenneLoCCoZn,BRemonDF,tHonnatm.RecurrentBayesiannetworkfortherecognitionofhumanbehavioursvideo[C]//procofiCVS.Graz:ieeeComputerSocietypress,2003:68-77.

[100]GonGShaogang,XianGtao.Recognitionofgroupactivitiesusingdynamicprobabilisticnetworks[C]//procofinternationalConferenceonComputerVision.2003:742-749.

[101]LUoYing,wUtD,HwanGJn.objectbasedanalysisandinterpretationofhumanmotioninsportsvideosequencesbydynamicBayesiannetworks[J].ComputerVisionandimageUnderstanding,2003,92(2):196-216.

[102]mUnCaSteRJ,maYunqian.activityrecognitionusingdynamicBayesiannetworkswithautomaticstateselection[C]/procofieeeworkshoponmotionandVideoComputing.2007.

[103]BUCCoLieRiF,DiStanteC,Leonea.Humanposturerecognitionusingactivecontoursandradialbasisfunctionneuralnetwork[C]//procofConferenceonadvancedVideoandSignalBasedSurveillance.2005.

[104]HonGpengyu,tURKm,HUanGtS.Gesturemodelingandrecognitionusingfinitestatemachines[C]//procofieeeConferenceonFaceandGestureRecognition.2000.

[105]BaDLeRn.temporalsceneanalysis:conceptualdescriptionofobjectmovements,no.80[R].toronto:Universityoftoronto,1975.

[106]intiLLeS,BoBiCKa.Representationandvisualrecognitionofcomplex,multiagentactionsusingbeliefnetworks,no.454[R].[S.l.]:mit,1998.

[107]moRit,SHimoSaKam,Satot.SVmbasedhumanactionrecognitionanditsremarkablemotionfeaturesdiscoveryalgorithm[C]//procofinternationalSymposiumonexperimentalRobotics.2003.

[108]LapteVSi,CapUtoB.Recognizinghumanactions:alocalSVmapproach[C]//procofinternationalConferenceonpatternRecognition.2004.

[109]ZHUGuangyu,XUChangsheng,Gaowen,et-al.actionrecognitioninbroadcasttennisvideousingopticalflowandsupportvectormachine[C]//procofeCCV.2006.

[110]CUtLeRR,tURKm.Viewbasedinterpretationofrealtimeopticalflowforgesturerecognition[C]//procofthe3rdinternationalConferenceonFaceGestureRecognition.1998.

[111]KoJimaa,tamURat.naturallanguagedescriptionofhumanactivitiesfromvideoimagesbasedonconcepthierarchyactions[J].internationalJournalofComputerVision,2001,50:171184.

[112]HonGenGS,neVatiaR.multiagenteventrecognition[C]//procofinternationalConferenceonComputerVision.2001:84-91.

[113]RoBeRtSonn,ReiDi.Behaviorunderstandinginvideo:acombinedmethod[C]//procofthe10thieeeinternationalConferenceonComputerVision.2005:808-815.

[114]pYnaDatHDV,weLLmanmp.Generalizedqueriesonprobabilisticcontextfreegrammars[J].ieeetransonpatternanalysisandmachineintelligence,1998,20(1):65-77.

[115]iVanoVY,BoBiCKa.Recognitionofvisualactivitiesandinteractionsbystochasticparsing[J].ieeetransonpatternRecognitionandmachineintelligence,2000,2(8):852-872.

[116]RYoomS,aGGaRwaLJK.Recognitionofcompositehumanactivitiesthroughcontextfreegrammarbasedrepresentation[C]//procofieeeComputerSocietyConferenceonComputerVisionandpatternRecognition.2006.

[117]pYnaDatHDV,weLLmanmp.probabilisticstatedependentgrammarsforplanrecognition[C]//procofthe16thConferenceonUncertaintyinartificialintelligence.SanFrancisco,Ca:[s.n.],2000:507-514.

[118]paRKS,aGGaRwaLJK.eventsemanticsintwopersoninteractions[C]//procofinternationalConferenceonpatternRecognition.Cambridge:[s.n.],2004.

[119]nGUYennt,BUiHH,VenKateSHS,et-al.Recognisingandmonitoringhighlevelbehavioursincomplexspatialenvironments[C]//procofieeeComputerVisionandpatternRecognitionCanference.2003.

[120]KamBHamettUC,GoLDGoFDB,teRZopoULoSD,et-al.nonrigidmotionanalysis[m]//HandbookofpRip:computervision.orlando:academicpress,1994.

[121]FeRRYmanJ,BoRGm,tHiRDeD,et-al.automatedsceneunderstandingforairportaprons[C]//procofthe18thaustralianJointConferenceonartificialintelligence.Sidney:SpringerVerlag,2005.

[122]BiRDnD,maSoUDo,papaniKoLopoULoSnp,et-al.Detectionofloiteringinpidualsinpublictransportationareas[J].ieeetransonintelligenttransportationSystems,2005,6(2):167-177.

[123]LUSijun,ZHanGJian,FenGDD.Detectingunattendedpackagesthroughhumanactivityrecognitionandobjectassociation[J].JournalofthepatternRecognition,2007,40(8):2173-2184.[124]oGaLeaS,KaRapURKaRa,aLomonoSY.Viewinvariantmodelingandrecognitionofhumanactionsusinggrammars[C]//procofinternationalConferenceonComputerVision.Beijing:[s.n.],2005.

[125]GatiCapeReZD,LatHoUDG,oDoBeZJm,et-al.audiovisualprobabilistictrackingofmultiplespeakersinmeetings[J].ieeetransonaudio,Speech,andLanguageprocessing,2007,15(2):601-616.

[126]CRiStanim,BiCeGom,mURinoV.audiovisualeventrecognitioninsurveillancevideosequences[J].ieeetransonmultimedia,2007,9(2):257-267.

[127]LiHong,GReenSpanm.multiscalegesturerecognitionfromtimevaryingcontours[C]//procofthe10thieeeinternationalConferenceonComputerVision.2005:236-243.

计算机视觉概述篇7

我们也无时无刻不在进行人脸识别,我们每天生活中遇到无数的人,从中认出那些熟人,和他们打招呼,打交道,忽略其他的陌生人。甚至躲开那些我们欠了钱还暂时还不上的人。然而这项看似简单的任务,对机器来说却并不那么容易实现。

对计算机来讲,一幅图像信息,无论是静态的图片,还是动态视频中的一帧,都是一个由众多像素点组成的矩阵。比如一个1080p的数字图像,是一个由1980×1080个像素点组成矩阵,每个像素点,如果是8bit的rgb格式,则是3个取值在0-255的数。机器需要在这些数据中,找出某一部分数据代表了何种概念:哪一部分数据是水杯,哪一部分是书本,哪一部分是人脸,这是视觉模式识别中的粗分类问题。

而人脸识别,需要在所有机器认为是人脸的那部分数据中,区分这个人脸属于谁,这是个细分类问题。

人脸可以分为多少类呢?这取决于所处理问题的人脸库大小,人脸库中有多少目标人脸,就需要机器进行相应数量的细分类。如果想要机器认出每个他看到的人,则这世界上有多少人,人脸就可以分为多少类,而这些类别之间的区别是非常细微的。由此可见人脸识别问题的难度。

更不要提,这件事还要受到光照、角度、人脸部的装饰物等各种因素的影响。这也不难解释为什么人脸识别技术目前还没有大量应用在日常生活中,大部分人只能在科幻电影中接触人脸识别了。

一些不太被人熟悉的事物,经常会伴随着大量的概念混淆。比如对西方宗教不太了解的国人,可能搞不清楚为什么有些人信上帝但不信耶稣;都是在教堂工作的大叔,为什么有些要禁欲,有些却能结婚。而人脸识别作为一个新事物,也伴随着大量的概念混淆,而分清这些概念,对于理解人脸识别还是比较重要的。

计算机视觉概述篇8

虚拟现实

简称VR(VirtualReality),也叫灵境技术,是一套由计算机仿真系统创建出来的虚拟世界。通俗讲,就是使用技术手段,让人身临其境,并可以与这个环境进行交互。这套技术主要包括模拟环境、感知、自然技能和传感器各等方面,除了计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等多感知。目前,虚拟现实技术已经应用于医学、军事航天、室内设计、工业仿真、游戏、娱乐等多个行业。

认知计算

认知计算出自于iBm人工智能超级计算机“沃森”的称谓,而现在,它更多的代表着一种全新的大数据分析方式。随着信息的增加,计算机可在已有经验的基础上随着时间推移,以学习的、交互的方式,随着数据的进一步增长逐步提高认知的分析行为,就像大脑会自然而然地做事情,“认知计算”是人工智能和大数据的“联姻”。

深度学习

深度学习DeepLearning的概念源于人工神经网络的研究。机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。自2006年以来,机器学习领域,取得了突破性的进展。图灵试验(图灵,计算机和人工智能的鼻祖),至少不是那么可望而不可及了。在技术手段上不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。这个算法就是DeepLearning。借助于DeepLearning算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。

Dt时代

顾名思义,应该是Datatechnology,数据处理技术。这个词虽然很早就被人提出了。但是直到2015年3月的it领袖峰会上,马云演讲中提出“从it时代走入Dt世界”之后才在中国火热起来。马云称,二者的区别在于,it时代以“我“为中心,Dt时代则以“别人”为中心,让别人更强大,开放和承担更多的责任。

量子计算

量子计算,是当前最热门的研究领域。相对于普通计算机,基于量子力学特性的量子计算机,拥有超乎想象的并行计算与存储能力,求解一个亿亿亿变量的方程组,具有亿亿次计算能力的“天河2号”需要100年,而万亿次的量子计算机理论上只需要0.01秒就可解出。当量子计算机应用之时,现在的密码破译、基因测序等科学难题,将可迎刃而解。

人脸识别

是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。人脸识别产品目前已广泛应用于金融、司法、军队、公安、边检、政

府、航天、电力、工厂、教育、医疗及众多企事业单位等领域。随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。形象地说,就是给计算机安装上眼睛(相机)和大脑(算法),让机器能够感知环境与对象。我们中国人的成语“眼见为实”和西方人常说的"onepictureisworthtenthousandwords"表达了视觉对人类的重要性。不难类比,机器有了视觉以后的前途是不可估量的,例如:智能机器人、智能视频监控、新型人机界面等等。

人工智能

人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。其所使用的技术旨在根据数据和分析赋予计算机能够做出类似人类的判断。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

智慧城市

“智慧城市”是一个非常火热的词。但在很多人看来,这一高大上的话题显得既陌生又遥远。其实,智慧城市建设早已通过各种不同的展现方式渗入到了我们的日常生活中,并从众多方面来改变我们的生活,比如智能家居、智能可穿戴设备以及工业4.0等。智慧城市实际上就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。

独角兽

独角兽企业原本是美国风投界的术语。用来描述估值超过10亿美元的初创公司。这些企业最初通常是以软件为主,但现在渐渐包括了其他领域的行业。到2015年8月止,在独角兽企业名单上排行在前的企业有Uber(交通),小米(电子消费品),airbnb(住宿),palantir(大数据)和Snapchat(社交媒体)。

由独角兽衍生而来的词:

十角兽:指估值超过100亿美元的初创企业。

超级独角兽:super-unicorn,指估值超过1千亿的公司,例如Facebook。

独角鲸:加拿大技术独角兽一般被称为“独角鲸”。

雾计算

雾计算(FogComputing)是云计算的延伸概念,是对云计算的扩展。由思科(Cisco)首创。这个因“云”而“雾”的命名源自“雾是更贴近地面的云”这一名句。有别于云端计算,雾计算所采取的架构更分散、更接近网路边缘,将计算、通讯、控制和储存资源与服务,分配给用户或靠近用户的设备与系统。雾计算是以个人云,私有云,企业云等小型云为主,以量制胜,强调数量。

区块链

对大众而言,区块链的概念最先出现在比特币的相关论述中。区块链就是比特币的底层技术基础。比特币只是区块链的最为出名的一个应用。区块链(Blockchain)是在没有中央控制点的分布式对等网络,使用分布式集体运作的方法,实现一套不可篡改的,可信任的数据库技术方案,其特点为去中心化存储、信息高度透明、不易篡改等。通俗点说,就是利用计算机程序在全网记录所有交易信息的“公开大账本”。数据区块记录了整个数字货币网络上的交易记录数据,并且这些数据是被所有数字货币节点共享的。通过数据区块,我们可以查询到每一笔数字货币交易的历史。

区块链的核心,是一个全球性的分布式数据库,它不仅仅能够记录金融交易,它几乎可以记录所有有价值的东西:出生证明、死亡证明、结婚证、教育程度、财务帐目、医疗过程、保险理赔、投票……任何可用代码来表示的东西。

数据湖

计算机视觉概述篇9

关键词:视觉跟踪;粒子滤波;模拟退火;多特征融合;粒子匮乏

中图分类号:tp391.41文献标识码:a

1引言(introduction)

视觉跟踪是对视频序列中目标进行观测、推理获得目标的运动参数,如位置、速度、加速度,以及运动轨迹。目标跟踪的难点主要在于杂波环境、复杂背景、遮挡、姿态及光照变化情况下,如何有效提取区分性和稳健性较好的目标视觉特征并进行稳定的跟踪[1]。当前许多跟踪算法被提出,如distributionfields[2],基于时空上下文跟踪算法[3],miL跟踪算法[4]等,最新研究综述见[5,6]。视觉特征如颜色、纹理、边缘和轮廓等至关重要,单一特征已很难取得满意的跟踪性能,因此多视觉特征融合跟踪被广泛采用[7]。同时设计一个实时、鲁棒性和跟踪精度高的跟踪算法仍然具有挑战性。

粒子滤波是一种比较有效的跟踪算法,它通过蒙特卡洛抽样与贝叶斯推理以适当运算量实现了状态估计,但由于复杂背景、物体遮挡等原因,跟踪问题的观测似然模型往往呈现为多峰值的非线性、非高斯系统的状态估计,在实际情况下很难从后验概率分布抽样。常用的粒子滤波利用重要性采样(SiR)方法通过选取建议分布得到后验概率分布的带权粒子,具有易于计算递推权重、建议概率密度容易被采样等优点,但缺点是没有考虑最新观测信息导致权值方差较高且无法处理高维状态空间大计算量和粒子退化等问题。

在上述分析基础上,本文在粒子滤波视频跟踪框架下融入改进的非常快速模拟退火算法(称为iSapF),用该退火算法动态改进了重要抽样密度函数,使粒子避免陷入局部区域解,并利用颜色特征似然函数和边缘特征似然函数实现了对目标的稳定跟踪。

2粒子滤波算法(particlefilteralgorithm)

粒子滤波算法采用序贯蒙特卡洛模拟经重要性采样得到一组带相关权值的粒子以近似表示目标后验概率密度函数(pDF),假设系统的递归过程符合马尔科夫假设,则公式如下:

(1)

式中,表示粒子或随机状态,即可能的目标状态;表示到k时刻所有状态的样本集;表示粒子的权重;表示观测值;推导权重公式如下

(2)

因在实际情况下很难得到pDF,故利用建议分布(重要性概率密度函数)函数近似后验分布,为似然概率分布,为转移概率分布。SiR重要性重采样算法将建议分布采用先验密度,即:。

3模拟退火粒子滤波算法(Simulatedannealing

particlefilter)

模拟退火算法(Simulatedannealing,Sa)作为局部搜索算法的扩展,利用概率函数有概率的接受较差的扰动解为新解,使其避免了传统梯度搜寻法往往陷入区域解的缺点,而使模拟退火法有机会跳脱区域解,让粒子种群往似然函数全局最佳解收敛。

3.1模拟退火算法

退火的基本思想从将温度升到足够高,再让其逐渐降温。加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。从某一初始温度开始,伴随温度的不断下降,利用以概率接受新状态的metropolis准则,结合概率突跳特性在解空间中随机寻找得到全局最优解。

3.2改进模拟退火算法(iSapF)

传统Sa虽然有较强的寻优能力、初值鲁棒性强、简单通用等有点,但是模拟退火算法存在的主要问题是运行时间太长。其次,模拟退火算法的性能对参数及初始值的选取十分敏感,比如:较高的初始温度、缓慢的退火降温速率、大量的迭代次数及同一温度下足够的扰动次数导致了优化过程较长。不同的参数可能导致算法性能的巨大差异,而优化参数设置和具体的问题是密切相关的,这些方面都限制了模拟退火算法的应用效果。

(1)Sa中模型扰动通常采用高斯分布或均匀分布,而VFSa采用依赖于温度的Cauchy分布法:即

(3)

(4)

式中,为[0,1]内均匀分布的随机数;[,]为x的随机扰动取值范围;该模型在高温下搜索范围大,在低温时搜索仅在当前模型附近。因为该分布有平坦的“尾巴”,使搜索易于跳出局部极值。加快了Sa的收敛速度。是随机扰动变量。

(2)退火降温函数为,为退火率;为迭代次数。

4实验与性能分析(experimentsandperformances

analysis)

仿真实验采用典型的一维单变量非静态增长模型,此一维模型具有很强的非线性,本文的方法,充分考虑了运动边缘信息和新的建议分布,因此既保证了目标不受静止复杂背景的影响,又能够很好地捕捉目标的边缘和轮廓信息,跟踪窗口准确地捕捉到目标的瞬间变化,能实现遮挡下的准确跟踪。一维模型具有很强的非线性,其状态递推方程和观测方程如下:

(5)

(6)

其中,、分别为系统的过程噪声和观测噪声;~,~。进行100个时刻的仿真,横坐标代表时刻,纵坐标代表粒子状态,可以简化为跟踪目标位置。

图1pF、模拟退火算法、iSapF三种算法100粒子

目标跟踪仿真比较结果

Fig.1Resultsofthreealgorithmsontargettracking

byusing100particles

5结论(Conclusion)

本文针对退火算法搜索全局最优解收敛速度较慢以及初始参数敏感,不利于结合粒子滤波进行目标跟踪的问题,提出了一种新的融合多特征的改进退火粒子滤波算法。该算法通过对算法要素中采用的退火降温函数、回火升温等方面进行优化,并结合民主融合策略自适应地调节

特征在跟踪中的权重,使得粒子集中向高似然区,保证了粒子的多样性,在算法的实时性和鲁棒性间取得了平衡,得到更好的追踪性能。

仿真实验表明改进算法比退火粒子滤波算法能更快的收敛到全局最优粒子,提高了实时性,虽然比标准粒子滤波算法增加了少量计算时间,但在可接受范围内,并提高了跟踪精度。在变化的实际场景测试也表明,本文算法能较好地适应背景干扰、部分遮挡等复杂环境,并可应用于其他跟踪环境,具有广泛应用前景。

参考文献(References)

[1]K.Zhang,H.Song.Real-timeVisualtrackingviaonlineweightedmultipleinstanceLearning[J].patternRecognition,vol.46,2013:397-411.

[2]Sevilla-Lara,L.erik.Distributionfieldsfortracking[J].ComputerVisionandpatternRecognition,USa,June2012:1910-1917

[3]K.Zhang,L.Zhang,Q.Liu,D.Zhang,m.H.Yang.FastVisualtrackingviaDenseSpatio-temporalContextLearning[J].inproceedingsofthe13theuropeanConferenceonComputerVision(eCCV),2014:127-141.

[4]B.Boris,m.H.Yang,S.Belongie.Visualtrackingwithonlinemultipleinstancelearning[J].ComputerVisionandpatternRecognition,2009:983-990.

[5]H.Yang,Shao.L,F.Zheng,L.wangandZ.Song.Recentadvancesandtrendsinvisualtracking:areview.neurocomputing,Vol.74,2011:3823-3831.

[6]a.Smeulders,D.Chu,R.Cucchiara,S.Dehghan,m.Shah.Visualtracking:anexperimentalSurvey.ieeetransactionsonpatternanalysisandmachineintelligence,Vol.1,2013.

[7]ZhenjunHan,QixiangYe,Jianbinbinedfeatureevaluationforadaptivevisualobjecttracking[J].ComputerVisionandimageUnderstanding,2011,115:69-80.

作者简介:

计算机视觉概述篇10

关键词:教学方法;语言;设问解答式

“C语言程序设计”是高等学校的公共基础课程,该课程要求学生了解程序设计的基础知识并通过基本的编程训练,培养大学生的计算机应用能力和软件设计的基本能力[1]。C语言程序设计概述(下简称“概述”)是课程的第一讲内容,一般包括计算机程序设计的基本概念、C语言的产生及发展过程和C语言程序设计的特点[2]。作为课程的导入课,“C语言程序设计概述”的课堂教学应该树立起学生对课程的宏观和整体认识,要解释和回答好以下几个问题[3]252:为什么要学这门课?这门课有什么用途?什么是计算机语言?计算机语言和人类自然语言有什么异同?什么是程序设计语言?程序设计语言是什么样的计算机语言?C语言又是什么样的程序设计语言?如何学好C语言?传统的课堂教学往往对上述问题没有完全回答或回答得不好。

2教学内容设计

笔者曾经做了这样一个调查,对正在学习C语言程序设计课程,而且学习已经接近尾声的学生进行问卷调查。75%的学生回答不出来课程有什么用?85%的人不能准确说出“计算机语言”的概念,80%的人不能说出到底什么是“C语言”?70%以上的学生认为没有十足的把握一次通过计算机二级考试。从这个调查问卷,发现笔者的“C语言程序设计”教学真的很失败――学生连最基本的概念都没有掌握,我们感到上好“概述”真的十分重要。教师在讲解“概述”时,一般就是从给学生演示“程序编辑调试”入手,进而讲解C语言的发展,接着讲解C语言程序设计中的数据类型、控制语句等。殊不知,这些学生都是从高中才进入大学,他们对程序设计可能一无所知,乍一接触这些知识,一下子可能无法接受,更有学生从此就失去了学习“C语言程序设计”的兴趣。

2.1设问解答式教学思路[4-6]

“概述”是C语言教学的敲门砖,上好这一节课,直接影响到后续章节的成败。讲述这个内容时,我们首先需要讲解这门课程的重要性,使学生认识到这门课必须要学好。在学生还不知道课程内容时,适当地通过课程提问,逐一分析解决,使学生认识到C语言的强大功能,产生学习的动力,希望学好C语言,了解C语言的学习方法。如图1所示。

2.2承上启下讲解课程的性质

对于学习,人总有一种想法,重要的东西才去学。对任何一门课程,教师必须要跟学生强调这门课程的重要性,从扩充知识体系方面去强调重要性,同时要用通俗的语言来提起学生的兴趣。对于C语言程序设计,我们采用了如图2所示的讲解方法,使学生初步了解课程的重要性。

2.3层层递进提出问题

设问解答式在教学中已经成为一种流行的教学方法,但在问题设置和解答方面都要有技巧。很多人习惯提的问题是某一讲内容的重点、难点,殊不知,学生还没有开始内容的学习,如何能做到对提出问题有印象,从而做出解答。针对学生对程序设计的了解情况,我们设置以下问题,这些问题层层递进,如果学生了解了这几个问题,那么就对C语言有了一定的了解:

1)有了丰富的人类语言,为什么还要有计算机语言?

2)计算机语言有何特征?

3)程序设计语言是一种什么样的计算机语言?

4)C语言是什么样的程序设计语言?有何特点和作用?

5)如何学习C语言?

2.4教学方法和技巧――解决问题

2.4.1为什么要学习计算机语言

这是每个计算机初学者遇到的问题,我们利用图3所示的方法来使学生了解计算机语言与人类语言的区别:计算机语言是人与电脑交流的工具,计算机看得懂;而人类的自然语言是人与人交流的工具,计算机不认识。因此我们要指挥计算机做事,就必须要学习计算机的语言。

2.4.2计算机语言家族

有学生认为所有的语言学起来都枯燥无味,计算机语言也不例外。这个时候我们可以列举一下“图灵奖与计算机语言”,如图4为计算机语言的类别,通过讲解让学生了解到计算机语言的大师们对计算机语言的贡献,对计算机及信息技术发展的贡献,使他们感受到计算机语言的魅力,激发学习兴趣。

2.4.3以独特的视角展现“C语言”特色

学生在了解了计算机语言的概念后,肯定很想知道计算机语言的特征,我们抓住学生的心理特点,将C语言的特点总结如下:

1)严格定义,有严谨的语法;

2)语义上无二义性;

3)比自然语言要精简;

4)是机器可执行的。

在讲解这一部分时,我们一定要注意与人类的自然语言进行对比,使学生留下深刻的印象。

2.4.4层层细化,讲解C语言的发展

当学生了解了“语言”、“计算机语言”之后,接着即可引入“C语言”的相关知识。讲解过程中,我们始终把握联系实际,由浅入深的步骤[3]252-253,如图5展示了讲解思路,采用图示的方式讲解计算机语言的发展过程:

2.4.5图解“程序”的概念

我们一直强调,要计算机做事,要控制计算机,而其中重要的步骤是编写程序、解决问题。理论上说,计算机可以作任何事情,只要把实际问题抽象、制作为可求解的程序,本过程适宜采用如图6所示的图示方式讲解[3]252。

3结语

我们在全校“C语言程序设计”教学中普遍实施上述教学思路,教师和学生普遍感觉收获颇多,特别是加深了学生对C语言的了解,激发了他们学习的兴趣,课堂教学与实验教学效果都比过去有了明显改善。“C语言程序设计”课程在2010年度被评为湖南省精品课程。通过改革教学内容、改进教学方法使C语言教学更适应学生的需求,便于学生循序渐进地学习相关知识和技能[7]。同时在这个过程中,学生会不断地获得成就感,更大地激发起求知欲望,从而培养出独立探索、勇于开拓进取的自学能力。最终使我们的教学更适用于培养学生的创新能力、独立分析问题和解决问题的能力[8]。

注:本文所涉及内容的视频录像可在湖南工业大学“C语言程序设计”省级精品课程网站:218.75.216.182/vc/850839观看。

参考文献:

[1]张锦祥.高级程序设计语言课程教学改革与实践[J].浙江教育学院学报,2007(4):71-76.

[2]谭浩强.C程序设计[m].3版.北京:清华大学出版社,2005:1-12.

[3]赵娜.C语言程序设计课程教学研究[J].科技情报开发与经济,2007,17(8):252-253.

[4]郭敏,刘会杰.“目标任务型”教学模式在程序设计课程教学中的应用[J].河北广播电视大学学报,2007(2):54-56.

[5]刘小燕,申艳梅.“C语言程序设计”教学方法探析[J].计算机教育,2010(6):94-96.

[6]杨素吟.设问讲练教学法在教学中的运用[J].职业教育研究,2005(8):59-59.

[7]温雅敏.数学专业高级语言程序设计课程教学模式改革探讨[J].科技经济市场,2008(5):119-120.

[8]楼蔚松.C语言教学新模式探索[J].现代企业文化:理论版,2009(22):191-192.

BasedQuestionandanswerStyle’s“CprogrammingLanguageoverview”teachingContentDesign

LiUQiang,LiChangyun,RaoJuhua

(SchoolofComputerandCommunication,HunanUniversityoftechnology,Zhuzhou412008,China)