首页范文大全计算机视觉的应用方向十篇计算机视觉的应用方向十篇

计算机视觉的应用方向十篇

发布时间:2024-04-26 00:52:03

计算机视觉的应用方向篇1

关键词:双目视觉;匹配算法;计算机视觉;立体匹配;相位一致性

1.计算机视觉系统分析研究

1.1计算机视觉技术及双目立体视觉

计算机视觉是通过计算机技术实现对视觉信息处理的整个过程,是一门新的学科。视觉是人们认知事物的重要途径,视觉是人们对视觉信息获取、处理和存储的过程。随着计算机技术的发展,信号处理技术的应用,人们通过照相机来把实际的事物拍摄下来转变为数字信息,并通过计算机信号处理技术队获取的视觉信号进行处理。计算机视觉技术对图像的处理分为获取图像、特征抽象选取、事物识别及分类和对三维信息的理解。获取图像主要是通过摄像机和红外线等技术对周围视觉事物进行获取,并通过计算得到和真实事物相应的二维图像,二维图像主要是数字图像。计算机视觉系统的最基本的功能是数字图像的获取。可以看出计算机视觉研究最基本内容是三维场景距离信息的获取。在计算机被动测量距离方法中,有一种重要的距离感知技术叫作双目立体视觉。双目立体视觉技术是其他计算机视觉技术无法取代的一种技术,对双目立体视觉技术的研究在计算机视觉技术和工程应用方面都是非常重要的。

1.2计算机视觉理论框架

第一个视觉系统理论框架的提出是以信息处理为基础,综合了图像处理和神经生理学等研究内容而建立的。这个视觉系统理论框架是计算机视觉系统的基本框架,与计算机视觉技术有着密切的关系。视觉系统的研究是以信息处理为基础的,从理论层次、算法层次和硬件层次3个层次进行研究。计算机理论层次主要是表达系统各个部分计算的目的和方法,对视觉系统的输入和输出进行规定,输入作为二维图像,输出是以二维图像为基础建立起来的三维物体,视觉系统的目的就是对三维物体进行分析和识别,通过计算对二维物置和形状进行重新建立。算法层次对计算机规定的目标进行计算,算法和计算机表达有关,不同的表达可以通过不同的算法进行实现,在计算机理论的层次上,算法和表达比计算机理论的层次要低。硬件层次是通过硬件来实现算法的一种表达方法。计算机理论层次在计算机信息处理中时最高的层次,取决于计算机的本质是解决计算机的自身问题,不是取决于计算问题的计算机硬件。要更好地对计算机系统和框架进行理解最好的方法就是要区分3个不同的层次,计算机理论的含义和主要解决的问题是计算机的目的,表达算法含义和主要解决的问题是实现计算理论的方法和输入输出的表达,硬件的实现的含义和主要解决的问题是如何在物理上对表达和算法进行实现。计算机视觉处理的可以分为3个阶段,对视觉信息的处理过程从最初的二维图像的原始数据,到三维环境的表达。第一阶段基元图的构成,基元图是用来表示二维图像中的重要信息,主要是图像中亮度变化位置及其几何分布和组织结构,图像中每点的亮度值包括零交叉、斑点、端点和不连续点、边缘等。第二阶段2.5维图描述,在以观测者为中心的坐标中,表示可见表面的方向、深度值和不连续的轮廓,基元是局部表面朝向离观测者的距离深度上的不连续点表面朝向的不连续点。第三阶段三维模型表示,在以物体为中心的坐标系中,有由体积单元和面积单元构成的模块化多层次表示,描述形状及其空间组织形式,分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积单元或面积形状基元都附着在轴线上。视觉理论框架图如图1所示。

2.基于计算机的视觉立体匹配算法研究

视觉立体匹配算法是基于人类视觉系统的一种计算机算法。立体匹配算法作为计算机立体视觉问题研究的重点,快速地实现图像对应点的匹配来获得视差图是当今研究的热点问题。立体视觉匹配算法根据基元匹配的不同可以分为相位匹配、区域匹配和特征匹配3种,其中区域匹配算法可以减少计算负担,区域匹配算法实时性高,应用前景广阔。计算机立体视觉通过对人的双眼进行模仿,在双眼的立体感知中获得信息,从摄像机拍摄的图像中获取物体的三维深度信息,这就是深度图的获取,把深度图经过处理得到三维空间信息数据,二维图像到三维空间实现转换。深度的获取在双目立体成像视觉系统中分为两步,首先在双目立体图像与图像之间建立点对点的对象关系,双目立体视觉算法研究的重点问题是解决对应点之间的匹配问题。其次以对应点之间的视差为依据对深度值进行计算。双目成像是获取同一场景中两幅不同的图像,两个单目成像模型构成一个双目成像模型。双目成像示意图如图2所示。系统的基线B是两个镜头中心的连接线,空间点w(z,y,z)作为世界坐标的值由(x1,y1)与(x2,y2)进行确定,如果摄像机的坐标位置和空间点w世界坐标的位置重合,图像平面和世界坐标轴xY的平面就是平行的。如果两个摄像机在坐标系统中的原点不同但是它们的光轴平行,那么双目成像计算人们可以看图3所示,图3表示的是两个摄像头连线在平台xY的示意。

立体视觉的成像过程是成像的逆过程,具有一定的不确定性。大量的数据信息在从三维影像向二维图像进行投影的过程会出现丢失的现象,所以视觉系统要通过自然的约束条件才能保证获取正确的解。这些约束条件在减少匹配的计算量方面可以提供有利的帮助。针对基于区域匹配快速算法,还可以应用基于视差梯度的匹配算法,这种匹配算法应用较大的搜索范围在边缘的特征点上进行搜索,采用视差梯度在非边缘区减少搜索范围。应用计算机视觉立体匹配算法可以减少成像匹配时间,大大提高了工作效率。计算机立体匹配算法征点的提取是算法的关键问题,今后的研究方向重点是对有效特征点提取方法的研究。

计算机视觉的应用方向篇2

[关键词]计算机视觉视觉框架三维表示

中图分类号:tp338.6文献标识码:a文章编号:1009-914X(2015)47-0133-01

1计算机数字视觉技术研究的地位

长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,这些努力的阶段性理论研究成果已经在人们的生产生活中发挥了不可估量的作用。计算机视觉(CV)研究的主要内容是通过计算机分析景物的二维图像,从中获得三维世界的结构和属性等信息,进而完成诸如在复杂的环境中识别和导航等任务。计算机视觉研究的重要性是不言而喻的,会产生深远的经济和科学的影响。

20世纪下半叶以来,很多研究者都曾试图通过视觉传感器和计算机软硬件模拟出人类对三维世界图像的采集、处理、分析和学习能力,以便使计算机和机器人系统具有智能化的视觉功能。今天,数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使数字视觉技术的革新。数字视觉技术的应用十分广泛,如数字图像检索管理、医学影像分析、智能安检、人机交互等。

数字视觉技术是人工智能技术的重要组成部分,也是当今计算机科学研究的前沿领域,经过近年的不断发展。已逐步形成一套以数字信号处理技术、计算机图形图像、信息论和语义学相互结合的综合性技术,并具有较强的边缘性和学科交叉性。

2计算机数字视觉技术研究的核心问题

视觉问题复杂性的本质在于相对声音等物理信号的描述,视觉信号充满了非常丰富的信息,描述起来也更加困难。如何攻克图像信息提取过程中的各种难题一直是当今计算机图像学研究的热点问题,而且在科学家们还未完全破译生物视觉系统的奥秘的前提下,大多数问题只能采用逆向推导机制,依据已知或假设的关联将视觉系统的输入数字图像和输出语义描述对应起来。基于概率论和数理统计的数学模型是最适合解决这类逆推问题的工具,这也是目前领域普遍采用各种统计模型和机器学习算法的本质原因。

物体的三维表示是计算机视觉研究的一个关键问题。八元树(octree)表示法是一种紧凑、简洁的物体三维表示法,近年来这种表示法被广泛地应用到计算机视觉的研究领域。广义八元树表示法的优点是不受视图个数的限制,通过增加观察方向可以计算出更加精确的物体三维表示。主要缺点是需要进行多次坐标变换,在计算机上实现时需要研究相应的离散技术。线性八元树(linearoctree)是较八元树更加简洁的表示形式。

3计算机视觉技术结构及其研究基本框架

计算机视觉技术内在的逆推机制决定了其在系统开发时必须将原始图像数据与其蕴含的知识之间的语义鸿沟加以弥补,在满足特定应用需求的前提下进行合理的图像内容简化和假设,形成目前普遍使用的计算机视觉系统结构:即图像数据层、图像特征描述层及图像知识获取层。由于各种图像特征都有其优点及不足之处目前趋势是结合不同种类的特征对图像内容进行综合表述,以建立较为可靠的图像信息模型,比如利用时空体数据结构对人体行为等视频内容进行描述。

计算机视觉技术的研究主要围绕着四个基本理论框架:以marr视觉计算理论为核心的深度重建框架;以感知特征群集为主线的基于知识的视觉框架;以“感知一动作”为基础的主动视觉理论框架;以综合集成理论为指导的视觉集成框架。其中,视觉集成理论框架是计算机视觉研究中一个较新的理论框架,并越来越多地受到cv研究者的关注。视觉集成理论的研究内容大致可以分为三个方面,第一方面的研究内容是关于视觉信息与其它类型信息的集成。第二方面的研究内容是关于视觉表示和视觉模型的集成。视觉表示方法主要分为三类:图像表示、表面表示、物体表示。视觉模型王要分为图像模型、结构和形状模型、运动和动态模型、不确定性模型。集成的视觉系统应该能够充分利用这些方法的优点。第二方面的研究内容是系统的集成。

4计算机视觉的发展历程及其趋势

一般认为,计算机视觉技术研究始于20世纪50年代中期,当时的努力主要集中在二维景物图像的分析。区别在于,图像处理的目的是通过处理原始图像得到在某一方面更有利的新图像。模式识别关心的则是将一些模式归入预先定义的有限类别中,主要研究的是二维模式。而计算机视觉主要考虑的是对三维世界的描述和理解。

一般来说,比较一致的观点认为,计算机视觉的研究起始于1965年Rboesrt开创性的工作。Rboert对“积木世界”研究取得的成功激起了人们很高的期望。

60年代末70年代初期,计算机视觉研究领域的很多工作是关于低层视觉处理,从图像中提取重要的强度变化信息――边缘检测。然而,人们很快就认识到很多重要的物体属性无法只通过分析图像的灰度变化得出。到了70年代初期,问题更加明朗化,低层视觉处理无法从单幅图像中普遍地获取对景物的有用描述,计算机视觉的研究领域普遍地发生危机。为了摆脱困境,计算机视觉迫切地需要有一个统一的理论框架作指导。70年代中期到80年代初期,计算机视觉的研究领域首次出现了一个理论框架:视觉计算理论框架,将视觉系统从概念上分成几个独立的模块。80年代后期,计算机视觉的研究领域出现了主动视觉(`vtievsiino)的理论框架。

近年的研究结果表明,单一的图像特征描述机制,无论是对底层像素级特征的描述还是顶层语义特征的描述。都仅能在有限范围内对图像的内容进行建模。巧妙融合多种图像特征因此成为近年图像信息描述方面的主要趋势,近年来,计算机视觉的另一个理论框架――视觉的集成方法越来越多地受到重视。一个重要的趋势是用于识别真实世界中较为复杂的图像内容的技术,适合描述真实场景的各种特征不断得到发展。随着目前互联网络技术的不断发展,另一个值得重视的趋势是计算机图像技术与互联网技术、社交媒体技术等其它计算机技术的融合。

6结语

计算机视觉识别技术虽然是一门新兴学科。但应用前景十分广阔,对其技术的有效性、易用性、实时性及稳定性能等方面有着较高的要求。因此。其技术面临着前所未有的机遇和挑战,该领域的发展亦有过激烈的争论和反思。但是,不可否认的是,计算机视觉技术研究在许多应用领域的应用前景都是广阔的、不可估量的。

参考文献

[1]马玉真,陶立英,王新华.计算机视觉技术的应用[J].试验技术与试验机.2006(01)

[2]潘春洪,张彩霞.计算机视觉简述[J].自动化博览.2005(05)

[3]孙瑾,顾宏斌.计算机视觉系统框架结构研究[J].计算机工程与应用.2004(12)

[4]王天珍.计算机视觉研究进展[J].武汉汽车工业大学学报.1998(01)

计算机视觉的应用方向篇3

关键词:虚拟现实技术虚拟环境计算机发展新型计算机

计算机技术的不断发展与应用方面的不断提高使得虚拟现实技术也相应同步地快速发展。尤其是计算机的发展将趋向超高速、超小型、平行处理和智能化,量子、光子、分子和纳米计算机将具有感知、思考、判断、学习及一定的自然语言能力,使计算机进入人工智能时代。这种新型计算机将推动新一轮计算技术革命,更加带动虚拟现实技术的快速发展,对人类社会的发展产生深远的影响。

1虚拟现实技术概述

虚拟现实(VirtualReality,简称VR)是近年来出现的高新技术,也称灵境技术或人工环境。该技术集成了计算机图形(CG)技术、计算机仿真技术、人工智能、传感技术、显示技术、网络并行处理等技术的最新发展成果,是一种由计算机技术辅助生成的高技术模拟系统。

虚拟现实技术的发展与应用离不开计算机技术的发展,两者是相辅相成的关系,如果要正确认识和剖析并把握虚拟现实技术的应用与发展,就必须深入研究计算机技术的变化与发展趋势,这样才能有利于我们未来更好的掌握与应用虚拟现实技术。

2计算机技术在虚拟现实技术的应用

自从1944年世界上第一台电子计算机诞生以来,计算机技术迅猛发展,传统计算机的性能受到挑战,开始从基本原理上寻找计算机发展的突破口,新型计算机的研发应运而生,计算机技术的发展将趋向超高速、超小型、并行处理和智能化。专家预计虚拟现实技术也会因此得到迅速发展。尤其是三维计算机图形学技术、采用多种功能传感器的交互式接口技术和高清晰度显示技术在虚拟现实的应用中起着重要作用。此外,智能化的超级计算机和新型高性能计算机不断发展。这会更有利于虚拟现实技术方面的快速发展。虚拟现实技术通过计算机对复杂数据进行可视化操作以及实时交互的环境。与传统的计算机人-机界面(如键盘、鼠标器、图形用户界面以及流行的windows等)相比,虚拟现实无论在技术上还是思想上都有质的飞跃。

3虚拟现实系统的技术特点

3.1虚拟现实有效地建立虚拟环境主要集中在两个方面,一是虚拟环境能够精确表示物体的状态模型,二是环境的可视化及渲染。

3.2虚拟现实仅是计算机系统设置的一个近似客观存在的环境,它是硬件、软件和设备的有机组合。

3.3用户可通过自身的技能以6个自由度在这个仿真环境里进行交互操作。

3.4虚拟现实的关键是传感技术。

3.5虚拟现实离不开视觉和听觉的新型可感知动态数据库技术,并需结合高速的动态数据库检索技术。

3.6虚拟现实不仅是计算机图形学或计算机成像生成的一幅画面,更重要的是人们可以通过计算机和各种人机界面与机交互,并在精神感觉上进入环境。它需要结合人工智能,模糊逻辑和神经元技术。

4虚拟现实硬件设备与软件技术和计算机技术的融合

在虚拟现实系统中,硬件设备主要由3个部分组成:输入设备、输出设备、虚拟世界生成设备。此外系统还需要虚拟现实的相关技术。

4.1虚拟现实的输入设备。有关虚拟现实系统的输入设备主要分为两大类:一类是基于自然的交互设备,用于对虚拟世界信息的输入;另一类是三维定位跟踪设备,主要用于对输入设备在三维空间中的位置进行判定,并送入虚拟现实系统中。虚拟世界与人进行自然交互的实现形式很多,有基于语音的、基于手的等多种形式,如数据手套、数据衣、三维控制器、三维扫描仪等。手是我们与外界进行物理接触及意识表达的最主要媒介,在人机交互设备中也是如此。基于手的自然交互形式最为常见,相应的数字化设备很多,在这类产品中最为常用的就是数据手套。

4.2虚拟现实的输出设备。人置身于虚拟世界中,要体会到沉浸的感觉,必须让虚拟世界能模拟人在现实世界中的多种感受,如视觉、听觉、触觉、力觉、痛感、味觉、嗅觉等。基于目前的技术水平,成熟和相对成熟的感知信息的产生和检测技术仅有视觉、听觉和触觉(力觉)3种。感知设备的作用是将虚拟世界中各种感知信号转变为人所能接受的多通道刺激信号,现在主要应用的有基于视觉、听觉和力觉感知的设备,基于味觉、嗅觉等的设备有待开发研究。

4.3虚拟现实的生成设备。在虚拟现实系统中,计算机是虚拟世界的主要生成设备,所以有人称之为“虚拟现实引擎”,它首先创建出虚拟世界的场景,同时还必须实时响应用户各种方式的输入。

通常虚拟世界生成设备主要分为基于高性能个人计算机、基于高性能图形工作站、高度并行的计算机系统和基于分布式计算机的虚拟现实系统四大类。

4.4虚拟现实的相关技术。虚拟现实系统的目标是由计算机生成虚拟世界,用户可以与之进行视觉、听觉、触觉、嗅觉、味觉等全方位的交互,并且虚拟现实系统能进行实时响应。要实现这种目标,除了需要有一些专业的硬件设备外,还必须有较多的相关技术及软件加以保证,特别是在现阶段计算机的运行速度还达不到虚拟现实系统所需要求的情况下,相关技术就显得更加重要。虚拟现实的相关技术主要有立体视觉显示技术、环境建模技术、真实感实时绘制技术、三维虚拟声音的实现技术、自然交互与传感技术等等。

4.4.1立体视觉显示技术。人类从客观世界获得的信息的80%以上来自视觉,视觉信息的获取是人类感知外部世界、获取信息的最主要的传感通道,视觉通道成为多感知的虚拟现实系统中最重要的环节。

在视觉显示技术中,实现立体显示技术是较为复杂与关键的,立体视觉显示技术是虚拟现实的重要支撑技术。

4.4.2环境建模技术。在虚拟现实系统中,营造的虚拟环境是它的核心内容,要建立虚拟环境,首先要建模,然后在其基础上再进行实时绘制、立体显示,形成一个虚拟的世界。虚拟环境建模的目的在于获取实际三维环境的三维数据,并根据其应用的需要,利用获取的三维数据建立相应的虚拟环境模型。只有设计出反映研究对象的真实有效的模型,虚拟现实系统才有可信度。在虚拟现实系统中,环境建模应该包括有基于视觉、听觉、触觉、力觉、味觉等多种感觉通道的建模。但基于目前的技术水平,常见的是三维视觉建模和三维听觉建模。而在当前应用中,环境建模一般主要是三维视觉建模,这方面的理论也较为成熟。

4.4.3真实感实时绘制技术。要实现虚拟现实系统中的虚拟世界,仅有立体显示技术是远远不够的,虚拟现实中还有真实感与实时性的要求,也就是说虚拟世界的产生不仅需要真实的立体感,而且虚拟世界还必须实时生成,这就必须要采用真实感实时绘制技术。所谓真实感绘制是指在计算机中重现真实世界场景的过程。真实感绘制的主要任务是要模拟真实物体的物理属性,即物体的形状、光学性质、表面的纹理和粗糙程度,以及物体间的相对位置、遮挡关系等等。

4.4.4三维虚拟声音的实现技术。在虚拟现实系统中加入与视觉并行的三维虚拟声音,一方面可以在很大程度上增强用户在虚拟世界中的沉浸感和交互性,另一方面也可以减弱大脑对于视觉的依赖性,降低沉浸感对视觉信息的要求,使用户能从既有视觉感受又有听觉感受的环境中获得更多的信息。

5总结

能看到虚拟现实技术对计算机技术的联系性非常紧密,并且虚拟现实技术对计算机设备的应用分类也越来越具体,越来越广泛。相应的计算机设备也应用到虚拟现实技术的对应环节上。虚拟现实技术是一个极具潜力的前沿研究方向,是面向21世纪的重要技术之一。它在理论,软硬件环境的研究方面依赖于多种技术的综合,其中有很多技术有待完善。可以预见,随着技术的发展,虚拟现实技术及其应用会越来越广泛。

参考文献:

[1]陈浩磊,邹湘军,陈燕,刘天湖.虚拟现实技术的最新发展与展望[J].中国科技论文在线,2011.

[2]王延汀.谈谈光子计算机.现代物理知识,2004,(16).

[3]陈连水,袁凤辉,邓放.分子计算机.分子信息学,2005,(3).

计算机视觉的应用方向篇4

计算机视觉的第一步是特征提取,即检测图像中的关键点并获取有关这些关键点的有意义信息。特征提取过程本身包含4个基本阶段:图像准备、关键点检测、描述符生成和分类。实际上,这个过程会检查每个像素,以查看是否有特征存在干该像素中。

特征提取算法将图像描述为指向图像中的关键元素的一组特征向量。本文将回顾一系列的特征检测算法,在这个过程中,看看一般目标识别和具体特征识别在这些年经历了怎样的发展。

早期特征检测器

ScaleinvariantFeaturetransform(SiFt)及GoodFeaturestotrack(GFtt)是特征提取技术的早期实现。但这些属于计算密集型算法,涉及到大量的浮点运算,所以它们不适合实时嵌入式平台。

以SiFt为例,这种高精度的算法,在许多情况下都能产生不错的结果。它会查找具有子像素精度的特征,但只保留类似于角落的特征。而且,尽管SiFt非常准确,但要实时实现也很复杂,并且通常使用较低的输入图像分辨率。

因此,SiFt在目前并不常用,它主要是用作一个参考基准来衡量新算法的质量。因为需要降低计算复杂度,所以最终导致要开发一套更容易实现的新型特征提取算法。

二代算法

SpeededUpRobustFeatures(SURF)是最早考虑实现效率的特征检测器之一。它使用不同矩形尺寸中的一系列加法和减法取代了SiFt中浩繁的运算。而且,这些运算容易矢量化,需要的内存较少。

接下来,HoG(HistogramsoforientedGradients)这种在汽车行业中常用的热门行人检测算法可以变动,采用不同的尺度来检测不同大小的对象,并使用块之间的重叠量来提高检测质量,而不增加计算量。它可以利用并行存储器访问,而不像传统存储系统那样每次只处理一个查找表,因此根据内存的并行程度加快了查找速度。

然后,oRB(orientedFaStandRotatedBRieF)这种用来替代SiFt的高效算法将使用二进制描述符来提取特征。oRB将方向的增加与FaSt角点检测器相结合,并旋转BRieF描述符,使其与角方向对齐。二进制描述符与FaSt和HarrisCorner等轻量级函数相结合产生了一个计算效率非常高而且相当准确的描述图。

Cnn:嵌入式平台目标识别的下一个前沿领域

配有摄像头的智能手机、平板电脑、可穿戴设备、监控系统和汽车系统采用智能视觉功能将这个行业带到了一个十字路口,需要更先进的算法来实现计算密集型应用,从而提供更能根据周边环境智能调整的用户体验。因此,需要再一次降低计算复杂度来适应这些移动和嵌入式设备中使用的强大算法的严苛要求。

不可避免地,对更高精度和更灵活算法的需求会催生出矢量加速深度学习算法,如卷积神经网络(Cnn),用于分类、定位和检测图像中的目标。例如,在使用交通标志识别的情况下,基于Cnn的算法在识别准确度上胜过目前所有的目标检测算法。除了质量高之外,Cnn与传统目标检测算法相比的主要优点是,Cnn的自适应能力非常强。它可以在不改变算法代码的情况下快速地被重新“训练(tuning)”以适应新的目标。因此,Cnn和其他深度学习算法在不久的将来就会成为主流目标检测方法。

Cnn对移动和嵌入式设备有非常苛刻的计算要求。卷积是Cnn计算的主要部分。Cnn的二维卷积层允许用户利用重叠卷积,通过对同一输入同时执行一个或多个过滤器来提高处理效率。所以,对于嵌入式平台,设计师应该能够非常高效地执行卷积,以充分利用Cnn流。

事实上,Cnn严格来说并不是一种算法,而是一种实现框架。它允许用户优化基本构件块,并建立一个高效的神经网络检测应用,因为Cnn框架是对每个像素逐一计算,而且逐像素计算是一种要求非常苛刻的运算,所以它需要更多的计算量。

不懈改进视觉处理器

计算机视觉的应用方向篇5

关键词:计算机图形图像设计;视觉传达设计;关系研究

中图分类号:tp391.41

将计算机技术应用到图形图像设计领域发起于上世纪80年代的欧美国家,并且随着计算机科技的快速发展,电脑制图对许多人来说不再是一件新鲜事,计算机制图技术得到广泛普及与应用[1]。正所谓“过犹不及”,长时间以来人们过度关注计算机制图技术,甚至完全将其当做一种工具,从而导致图形图像设计基本原则被忽视,致使计算机设计的图形图像缺乏艺术创新型,难以满足人类的视觉要求[2]。对此,相关学者开始尝试将计算机图形设计与视觉传达设计结合起来,并取得显著成效。本文即在此背景下展开研究,具体结果如下:

1基本概念分析

要想了解计算机图像图形设计与视觉传达设计之间的关系,我们需要了解两者的基本概念,具体如下:

1.1计算机图形图像设计的概念

所谓计算机图形图像设计,顾名思义,是指利用计算机技术设计制作图形图像的过程。计算机图形图像技术是随计算机技术发展而兴起的新技术,相比于传统的图形图像设计工作,它极大的解放了设计家的双手,有效减少了设计家双手的劳动,促使其有更多的时间和精力思考新的创意灵感。

另外,相比于手工制图,计算机软件更为精密,同时设计软件所提供的色彩、线条更为丰富,从而使制图者有更多选择余地。同时,相比于传统制图,计算机制图不需要长时间的美术基础训练,并且随着技术的发展,操作更加简单,适合初学者使用。

1.2视觉传达设计

1.2.1传达。在分析视觉传达设计前,我们需要先搞清楚什么是传达?传达是事物之间的一种共通现象,广泛存在于人类、自然界生物、机械等事物之间[3]。相比于其他事物之间的传达,人类之间的传达需要借助各种符号,因此我们可以将人类传达分为语言传达与非语言传达[4]。

语言传达,顾名思义,是指人类通过语言符号传递信息的现象,由于语言是人类最开始也是最常用的沟通方式,因此常被人类用来传达抽象概念。非语言传达是指语言传达之外的人类所采用的传达信息的方式,非语言传达主要通过视觉与听觉传递信息,而其中涉及范围最广的是视觉传达。

1.2.2视觉传达设计。视觉传达设计是指需要通过视觉传达各种信息的设计。例如:人们通过视觉观察绘画作品的大小、形状、色泽等可以得到作者想要表达的信息,并且画家通过改变以上因素就可以传达出不同的信息。视觉传达设计的内容为:各种标志、文字、图形以及符号等;传达媒体为:电视、广播、杂志、报纸以及网络平台等;传达面向的群体为:社会中不同身份的受众。

2计算机图形图像设计与视觉传达设计的异同点分析

2.1两者不同点分析

虽然有关计算机图形图像设计与视觉传达设计结合的研究方兴未艾,但是从根本上来说,两者之间存在较多的不同点。我们只有准确把握两者的差距,才能够更好的将两者融合起来。总结来看,两者之间的不同点主要存在于历史背景、设计任务、培训方法、创作方法等几个方面。

2.1.1两者的历史背景不同。如前文所说,计算机图形图像设计是随着计算机技术的发展而兴起的,因此该技术形成并兴起于上世纪末与本世纪初。而且进入新世纪后,随着计算机运行速度、存储容量、结构以及网络通信的完善,计算机图形图形设计进入了全新的发展时期,基本实现了与打印机、多媒体、绘图仪等设备的组合使用,从而使得计算机图形图像设计的范围得到拓展,逐渐从二维领域进入到三维领域。

相比于计算机图形图像设计,视觉传达设计的出现较早,其形成于上世纪40年代,第二次世界大战之后。此时人类社会迎来一个发展的新高峰,商品经济流通速度越来越快、流通范围越来越广。尤其是广告业的快速发展使得绘画与广告紧密的结合在一起,从而改变了传统的传达方法,使得视觉传达方式在人类社会中的地位越来越重要。此时,人类对视觉传达的需要促使了视觉传达设计的兴起与发展。

2.1.2两者设计任务不同。从设计作品的特性来看,计算机图形图像设计的作品主要是立体的、三维的以及动态的,因此其设计任务就是将原本的平面、二维、静止等作品转变成为立体、三维、动态作品。

而视觉传达设计的作品主要是通过视觉传达向受众传递作者想要表达的信息,因此作品的形式并不固定,只要能准确表达信息即可。因此,视觉传达设计的任务主要是树立形象、传递思想、说服受众,同时视觉传达设计还肩负着传递艺术美感的任务。

2.1.3两者培训方法不同。计算机图形图像设计是依靠计算机技术进行的工作,因此初学者掌握相关的计算机软件技术十分必要。因此,图形图像设计的培训方法主要是训练初学者了解并熟练使用计算机平面图形软件、三维软件,掌握排版印刷、视频编辑等技术。另外,训练初学者掌握一定的作品设计知识也是图形图像设计的主要任务。

由于世界传达设计的主要任务是向受众传达信息、传递美感,因此视觉传达设计工作需要用到广告学、美术学、传播学、设计学等多种知识。因此,在对初学者进行视觉传达设计培训时,要想初学者灌输工艺美术史、广告通论、设计史等学科的理论知识[5];同时,还要训练出初学者掌握广告设计、产品包装、装帧等必要技能。

2.1.4两者创作方法不同。计算机图形图像设计的创作主要依赖于各种设计软件,因此设计师在创作时只要能够熟练掌握各种软件技术,合理搭配形体与色彩、装饰与视觉美、静与动、立体与空间,就能创作出一幅比较完美的作品。

视觉传达设计的创作还比较倾向于美术作品创作,因此在创作时设计师首先要从绘画技法的角度调整点、线、面、色彩、光线、形体等方面的关系,从而准确将自身思想融入到作品中,进而实现形和意、象征与象的结合。

2.2两者的相同点分析

计算机图形图像设计与视觉传达设计最主要的共同点是:两者都属于艺术作品。因此,从这一角度来说,两者之间存在重叠的共同领域,例如:两者的教育培训都设计到了平面设计、色彩、素面等专业知识。

同时,两者都是运用文化符号与受众进行沟通并传递信息;并且,两种作品的设计都需要设计师进行创新思考,都必须要充满创意;另外,两者在进行创作时都需要考虑美术作品创作的各种要素以及创作原则。

3结束语

计算机图形图像设计与视觉传达设计的结合是未来的发展潮流,符合21实际的发展要求,能够充分体现计算机技术与艺术的完美结合[6]。而在分析两者基本概念的基础上,对两者的异同点进行探讨,可以为两者的应用结合提供理论参考,进而更好的推动二者的发展。

参考文献:

[1]张金龙.计算机图形图像设计与视觉传达设计研究[J].吉林广播电视大学学报,2013(01):117-118.

[2]袁志翔.计算机图形图像设计与视觉传达设计探微[J].现代装饰(理论),2013(02):173.

[3]邵玉兰,赵昕.关于计算机图形图像设计与视觉传达设计的分析[J].信息与电脑(理论版),2013(03):45-46.

[4]范丽萍.计算机图形图像设计与视觉传达设计[J].电脑编程技巧与维护,2012(04):83-84.

[5]龚良彩.计算机图形图像设计与视觉传达设计[J].计算机光盘软件与应用,2012(10):181.

计算机视觉的应用方向篇6

摘要:研究基于计算机视觉的实时动态手势识别技术,并利用openCV计算机视觉库在VS2010平台上设计一个基于该技术在多媒体教学中ppt演示控制方面的应用。首先,利用背景差分法进行手势检测,在背景更新的基础上,通过背景差分图和颜色直方图的反投影图来检测运动手势区域,可以达到较为满意的实时运动手势检测效果;其次,采用基于颜色直方图的粒子跟踪算法进行手势跟踪,基本能满足跟踪的实时性;最后,在手势识别阶段,采用基于Hu不变矩的轮廓匹配算法,得到较好的手势识别效果;使用六种手势,来实现演示文稿中的控制应用。

关键词:计算机视觉;背景差分;粒子跟踪;手势识别;Hu矩

中图分类号:tp391.41文献标识码:a

1引言

随着计算机软硬件技术的发展,人机交互已经由过去的鼠标、键盘方式逐渐向更加灵活生动的语音、姿势等新颖交互方式发展。由于基于视觉方式具有便捷和开销低等优点,因此,利用计算机视觉技术来使计算机理解用户的命令,从而做出控制动作,这一领域的研究得到越来越多的重视。其中,人的手势作为日常生活中最为广泛使用的一种交流方式;因此,国内外许多研究机构开始对手势识别技术进行研究,并已经取得了一些阶段性的成果。较早的有:Freeman和Roth等人提出的基于方向直方图的手势识别系统;国内的高文教授等人于1994年提出了一种静态复杂背景手势目标的捕获与识别。经过二三十年的发展,

人们对运动目标检测及跟踪进行了大量深入的研究:美国mit实验室通过提取左右手质心的运动轨迹以及手势形状特征参数,结合语法规则识别40个美国手语,准确率达到97%;另外,microsoftKorea的HyeonKyuLee,采用Hmm的阈值模型,识别9种动态手势命令,平均识别率高达98.19%;国内的任海兵提出了基于Dtw的手势识别算法,该算法能准确识别12种手势。

现在,基于视觉的手势识别技术更多的是应用在娱乐、游戏方面,比如微软前段时间推出的Xbox360游戏机体的体感外设Kinect及多款相配套的体感游戏,玩家可以通过手势在游戏中进行操作和互动,使得人机互动娱乐进入了一个新纪元。与此同时,还没有比较成熟的手势识别技术应用在现代教学系统中。因此,本文的研究重点是基于视觉的实时手势识别技术在多媒体教学演示控制中的应用。在基于视觉的手势识别研究中,需要解决的问题主要有两个:一是实时检测运动手势的信息,二是识别运动手势的信息并做出响应。对运动手势检测,本文采用背景差分结合改进颜色直方图特征的运动检测方法[1];对运动手势跟踪,本文采用粒子滤波算法[2]结合改进颜色直方图信息的方法;手势识别阶段,本文采用了基于Hu不变矩特征[3]的轮廓匹配算法[4];本文研究基于计算机视觉的手势识别系统,实现了在播放控制中运用手势进行开始、翻页、退出等功能,极大的提高了课堂教学的灵活性。

2手势检测

实时视频图像中的运动手势检测所需要完成的任务是:能够快且准的检测出手势在实时图像中的主要位置,并且能将位置所在的特定区域作为后续跟踪、识别的感兴趣区域。手势检测算法的好坏,直接影响整个系统的跟踪以及识别的效果。

目前,运动目标检测[5]的算法比较常用的有三种方法:光流法、帧间差分法和背景差分法。本文考虑实现环境为固定摄像头采集实时视频图像,背景基本不动,因此采用背景差分结合改进颜色直方图信息的运动检测方法。

2.1背景差分法

本文研究中,选取摄像头启动后的前10帧图像的平均作为最初的背景图像,把以后的实时序列图像当前帧和背景图像相减,进行背景消去。可以得到,运动手势区域的像素点的差分值比较大,背景区域的像素点的差分值比较小。另外,由于真实场景中的背景会因光线等外部条件产生微小的变化,长期的误差积累会造成最后得不到理想的手势区域,因此背景需要进行实时更新,从而能及时反映当前帧的背景图像,背景更新[6]的公式如下:

背景更新操作以后,对当前帧进行背景差分,大于阈值th1的图像点即为运动手势区域的点,并将得到的运动手势区域图像进行二值化操作,公式如下:

3手势跟踪

现在常用的一些跟踪算法主要有:卡尔曼预测算法、粒子滤波算法、均值偏移算法以及Camshift跟踪算法等。考虑到卡尔曼预测算法和均值偏移算法等都是线性跟踪算法,不能很好的应对目标运动的随机性,本文采用了粒子滤波算法。

3.1粒子滤波算法原理

粒子滤波法是指通过用一组带有权值的随机样本,以及基于这些样本的估算来表示动态系统的后验概率密度。当样本很大的时候,这种估计就等同于后验概率密度。这些样本就称为“粒子”。假设在t=0时刻每个粒子都有一个解,每个解与真实解都有一定的相似度,这个相似度可以表示为权重,随着时间的增加,相似度越大的粒子权重越大,而相似度越小的粒子权重就越小,最后趋于0,从而找到真实解(如图2)。

3.2基于改进颜色直方图信息的粒子跟踪

视频图像跟踪方面,目标的运动模型主要表现为目标位置、速度随时间改变的状态转移过程,目标的观测模型主要表现为每帧图像中运动目标的特征(如颜色、轮廓等)与真实目标的相似度的似然过程。在粒子滤波算法中,运动模型可以称为粒子传播或者粒子采样,它是一种随机过程[11]。粒子在经过传播以后,状态会发生改变,但权值没有跟着改变,这就需要系统的观测模型对当前粒子的状态进行计算从而更新粒子的权值。本文的研究中,观测值由目标区域的颜色直方图决定。

基于颜色直方图信息的粒子滤波就是将图像颜色特征的相似度作为粒子滤波算法要求解的后验概率,利用巴氏距离(Bhattacharyya)来计算相似度,得到粒子的权重。巴氏系数[12]如公式(9):

4.2识别算法过程

本文研究中,首先建立手势模板库,然后通过实时提取手势帧,经过前面第2部分的结合改进颜色直方图信息的手势检测,然后再经过形态学处理之后,得到效果良好手势区域的二值图,再用轮廓提取及跟踪来得到手势的轮廓图,然后计算其7Hu矩特征,最后运用欧氏距离将其与模板库中定义的手势进行特征匹配,完成手势识别。

轮廓提取就是要掏空内部的点:如果其八个相邻的点都是黑色,则可以判定为内部点,然后删除改点。

轮廓跟踪方法:首先找出轮廓中最左下方的点作为搜索的起点,然后按照一定规则来搜索手势轮廓上的其他像素点。由于轮廓是连续的,因此每个轮廓上的点的位置都可以用其前一个点的所张的角度来表示。研究中采用如下跟踪准则,第一个点开始定义搜索方向为左上,如果左上方的点是黑点,则它也是轮廓上的点;如果不是,那么顺时针旋转,直到找到第一个黑点,即轮廓上的下一个点。继续同样的方法搜索,直到返回最初的起点,搜索结束。

下图是轮廓跟踪算法[15]的示意图,搜索方向用箭头表示。

5系统实现

本文的系统是在微软的VS2010平台上,使用C++语言进行软件开发,在图像处理相关方面是基于计算机视觉库(openCV)进行研究的。程序界面如下图:

左边底层区的按钮可以观察实时手势跟踪和识别效果的功能(如图4和图7)。

手势识别的结果可以定义成一个变量,不同

的识别结果对应的变量值不同,然后根据变量值调用不同的api接口函数,这样就可以实现实时手势识别技术在演示控制中的应用。本文研究在控制部分挑选了六种手势,分别控制ppt播放中的开始、退出、上下翻页、跳转首末页等功能。手势命令定义如下:手势4控制开始播放;手势3控制退出播放;手势1控制跳转首页;手势2为跳转尾页;手势10为向下翻页页;手势5控制向前翻页。对电脑中某一ppt进行实际的播放控制(列举其中4个手势的控制状态),效果如下:

1)识别手势4,开始播放:

2)识别手势10,向下翻页:

3)识别手势1,跳转到首页:

4)识别手势3,退出:

系统通过笔记本自带30w像素的摄像头,采用DirectShow技术进行实时视频的获取,图像尺寸是320*240,fps可以达到30-60帧/秒,可以很好的满足实时性的要求。

6结语

本文通过研究设计了一个基于视觉的手势识别技术在演示控制中的应用系统,可以看出背景差分结合颜色直方图的运动检测可以得到较好的手势区域效果;采用的基于颜色直方图的粒子跟踪也能基本实现实时跟踪的任务;在识别过程中,基于Hu不变矩的轮廓匹配算法具有很好的鲁棒性,可以得到较好手势识别效果;在应用阶段,使用手势来完成控制命令,基本实现了在播放控制中的应用。

同时,仍存在一些问题:对于光照和人脸微小晃动等外部因素引起的噪声,只能降低而无法消除,这对于手势跟踪与识别的效果还是有一定的影响,在应用时会产生一定的误操作。这些问题仍需继续研究,才能使得基于视觉的手势识别技术得到更成熟的应用。

参考文献

[1]吴晓阳.基于openCV的运动目标检测与跟踪[D].杭州:浙江大学,2008.

[2]CHoJU,JinSH,pHamXD.objecttrackingcircuitusingparticlefilterwithmultiplefeatures[C]//SiCe-iCaSe:internationalJointConference.LasVegas:ieee,2006:1431-1436.

[3]甘志杰.基于Hu矩和支持向量机的静态手势识别及应用[D].青岛:青岛科技大学,2008.

[4]华斌,夏利娜.基于中值滤波和Hu矩向量的手语识别[J].计算机工程与设计,2011,32(2):615-618.

[5]伏思华,张小虎.基于序列图像的运动目标实时检测方法[J].光学术,2004,30(2):215-217.

[6]LinDeBeRCt.Scale-spacetheory:abasictoolforanalyzingstructuresatdifferentscales[J].JoumalofappliedStatistics.1994,21(2):224-270.

[7]于华平.视频序列中的手势检测与跟踪[D].南宁:广西大学,2010.

[8]Qinwen,penGQiConG.animprovedparticlefilteralgorithmbasedonneuralnetworkforvisualtracking[C]//internationalConferenceonCommunications,CircuitsandSystems.LasVegas:ieee,2007:765-768.

[9]龚翔.基于粒子滤波的视觉跟踪算法研究[D].南京:南京理工大学,2009.

[10]YUJiaXia,LiUwenJinG,YanGY.improvedparticlefilteralgorithmsbasedonpartialsystematicresambling[C]//ieeeinternationalConferenceonintelligentComputingandintelligentSystems.LasVegas:ieee,2010:483-487.

[11]朱志宇.粒子滤波算法及其应用[m].北京:北京科学出版社,2010.

[12]FaZLiS,poURHm,BoUZaRiH.particlefilterbasedobjecttrackingwithsiftandcolorfeature[C]//SecondinternationalConferenceonmachineVision.LasVegas:ieee,2009:89-93.

[13]侯一明,郭雷,伦向敏,等.运动背景下基于粒子滤波的目标跟踪[J].计算机工程与应用,2007,43(8):62-64.

计算机视觉的应用方向篇7

关键词:双目立体视觉;针孔模型;最大似然估计;二维标定

引言计算机视觉检测技术以其非接触、快速、高精度、自动化程度高等优点,近年来在众多领域得到了广泛的应用,尤其是双目立体视觉技术已经被成功地应用于工业检测、目标识别、智能车辆和空间物体三维姿态测量等领域。如何通过摄像机获取的二维图像信息,计算出三维空间中物体的几何信息,并由此重建和识别物体是计算机视觉技术中的首要问题。因此,要准确地得到三维空间点和相应图像像素点之间的对应关系,精确地标定摄像机是极其重要的[1]。随着计算机视觉理论的发展,人们根据实际应用提出了一些不同的摄像机模型和标定方法[112]。其中基于三维标定物的标定法以tSaiRY的两步标定法最为普遍[79],但该法不易进行大尺寸的标定,且标定块不易制作,价格昂贵。而基于二维标定物如平面棋盘格或带星状图形图板的标定法,如张正友标定法等[1012],其操作灵活,价格低廉,标定精度较高,是目前双目立体视觉标定的主要手段,它利用旋转矩阵的正交条件及非线性最优化进行摄像机参数的标定。这种基于不同位置平面模板的标定方法仅要求从不同角度拍摄同一标定平面两幅以上的图像,就可以求出摄像机的内外参数,同时不需要知道平面模板移动的具体方向和位移信息。由于需要确定模板上点阵的物理坐标以及图像和模板之间的点的匹配,提高了对使用者的要求。同时由于手动点击角点繁琐,容易产生一定的误差。为了使车辆辅助驾驶系统实现行人检测和距离判断,以便通过图像处理和计算实现对车辆辅助驾驶控制,因此本文构建了双目立体视觉模块,实现光学取景和成像。为了测量物点到摄像机镜头的距离,以及获取实际场景尺寸和摄像机成像尺寸之间的关系与误差,本文结合张正友等人的算法对车载双目立体视觉模块进行了二维标定。制定了合理的标定方案,并采用黑方格模板等方法进行实验,很好地实现了双目立体视觉模块的光学标定,其标定方法具有实现简便,算法移植性好,精度高的特点。图1针孔模型

Fig.1pinholemodel1基本结构和工作原理摄像机是满足射影特性的光学成像仪器,使用针孔模型[8]对其建模。成像过程实质上是四个坐标系之间的坐标转换,这四个坐标系依次是世界坐标系、摄像机坐标系、图像物理坐标系、图像像素坐标系。如图1所示,世界坐标系oXwYwZw建立在空间之中,用以量化摄像机及各个物点的位置和相互间的位置关系。摄像机坐标系oXcYcZc的原点o位于成像平面之后距离为焦距f的地方,Zc轴与光轴重合,Xc轴、Yc轴分别与图像的行方向、列方向平行。图像物理坐标系oXY与成像平面重合,原点位于图像中心,X轴、Y轴分别与图像的行方向、列方向平行。图像像素坐标系oUV与成像平面重合,原点位于图像左下顶点,U轴、V轴分别与图像的行方向、列方向平行。

三维坐标系之间的位置关系有平移和旋转两种,分别由平移矩阵和旋转矩阵来描述,世界坐标系到摄像机坐标系的转换为:xc

2.2标定预处理标定操作需要通过反色、图像优化、边缘检测、顶点检测和二维标定等步骤,在实现标定时,采用了黑方格模板和基于张正友定标的二维标定算法实现摄像机的标定以优化传统算法。摄像机获取的彩色图像,经过灰度转换,成为灰度图像。使用二元高斯函数产生高斯滤波窗口,对图像进行滤波,减少噪声对顶点提取的影响。由于标定物是画有黑色正方形的白纸,图像对比度较大,因此,使用阈值变换,进一步增加对比度,灰度图像进一步转换成为二值图像,同时大大简化了后续处理算法。此时,目标区域为黑色,背景区域为白色,不利于图像处理,因此,对二值图像的像素取反,让正方形的像区域成为白色区域。由于摄像机成像的不清晰性及噪声的影响,反色后的图像边缘出现了锯齿状,需要进行图像优化以修复目标区域的此类缺陷。分析这种缺陷发现,当锯齿出现时,连续的三个横向和纵向的像素点,其像素值为1、0、1或者0、1、0。基于这个特点,使用如图3所示的两种模板分别匹配整幅图像实现优化。首先使用如图3(a)所示的横向模板进行匹配,其大小为3个像素点,若f(i,j-1)=f(i,j+1),则令f(i,j)=f(i,j-1),进行图像优化。然后使用图3(b)所示的纵向模板对图像进行二次优化,设定大小为3个像素点,若f(i-1,j)=f(i+1,j),则令f(i,j)=f(i-1,j),从而完成对图像的优化。

优化后的图像是二值图像,目标区域为白色,区域内部没有孔洞,区域边缘不存在小的锯齿状。在优化后的图像中,边缘点是白色,在横向或纵向上,其两边的点的像素值相反。对横向模板,若f(i-1,j)≠f(i+1,j)且f(i,j)=1,则(i,j)即为边缘点。对于纵向模板,若f(i,j-1)≠f(i,j+1)且f(i,j)=1,则(i,j)即为边缘点。对于顶点检测,以正方形顶点为中心的一个菱形窗口中,一组相邻的两个菱形顶点与另一组相邻的两个菱形顶点的像素值相反。然后也可以利用简单的方法实现顶点检测。

2.3二维标定经典标定法[10]的理论基础是绝对二次曲线的像曲线只与摄像机内部参数有关,与世界坐标系的选择无关。标定在其基础上采用黑方格模板进行改进,通过摄像机在同一平面模板上采集不同图像,通过图像处理得到特征点的世界坐标和图像坐标,求出摄像机的内部和外部参数,并使用最大似然估计优化所有参数。首先在图像处理提取顶点后,得到一系列对应点的图像像素坐标m=(u,v)和世界坐标m~=(xw,yw,zw)。由于世界坐标系是以标定物平面为坐标平面oXY,因此m~=(xw,yw,0)。则:m~=1zcaRtm~=1λaRtm~=Hm~(8)使用摄像机对模板在m(m>2)个不同位置采集m个图像,每个图像上包含n个正方形顶点,经过图像处理,提取得到所有正方形顶点的坐标,因此,每个图像上的特征点的世界坐标和图像像素坐标均已知。求解超定方程的最小二乘解就是这个方向上的单应矩阵H,以该值作为初始值,使用Levenbergmarquardt算法求解以下函数的最小值,从而优化单应矩阵。由此可得:i=∑ni=1mi-Hmi2(9)其中,mi(i=1、2、3、……、n)是特征点的图像坐标,H是该组特征点所对应的单应矩阵,mi(i=1、2、3、……、n)是特征点的世界坐标。根据张正友标定法的绝对二次曲线方程的求解可以获得绝对二次曲线的像曲线:w=a-ta-1,而绝对二次曲线与世界坐标系的选择无关,仅与摄像机的内部参数有关,通过单应矩阵、旋转矩阵和平移矩阵的关系,结合绝对二次曲线在像平面上的像,并在模板上取3个不同位置和方向上的图像就可以求解其内部参数矩阵a。再根据单应矩阵与内部参数、旋转矩阵、平移矩阵的关系,可以求解出外部参数矩阵。最后采用∑mi=1∑nj=1mij-m^(a,Ri,ti,mij)2函数进行最大似然估计完成内部和外部参数的优化。3实验结果分析与结论在算法研究和仿真的基础上,选取了tota公司带有变焦镜头的tota500iii摄像机构建双目立体视觉系统,并通过软件进行实验验证。该双目立体视觉系统采用了1/3英寸的CCD,其照度为0.2lx,具有510线分辨率,电源供应可以实现aC24V或DC12V自动转换,实验标定模板为平面黑方格模板,其具体尺寸为240mm×176mm。图4为用立体视觉系统在3个不同角度成像的立体图像。

将数据采集卡获取的信号送入计算机,对送入的信号首先进行灰度转换、图像滤波和阈值变换等预处理操作,然后进行标定图像操作。通过本文所介绍的算法计算获得摄像机部分参数矩阵:a=[1190.12,4.94559,336.976;0,1273.9,135.906;0,0,1],R=[0.944963,0.017198,0.326725;0.0332569,0.988396,-0.148213;-0.325483,0.150922,0.933426],t=[-24.217,9.48915,101.815],k=[1.14065;-15.1296]。实际标定精度为0.0509mm,可以为后期的工作提供精度保障。通过理论研究和实验测定可知,利用黑方格模板和对理论进行改进可以简单有效地实现双目立体视觉中的摄像机光学标定并保证良好的精度,通过图像坐标到世界坐标的转换运算,实现机器视觉功能和测量功能,同时由于算法在畸变方面的研究不足,导致标定产生一定的误差。实现方法虽然简单但运算过程设计和处理仍可进一步优化,因此将在后续的工作中进一步进行标定算法的优化。

参考文献:

[1]王向军,郭文佳,韩双来,等.基于计算机视觉的弹着点坐标远程测量系统[J].红外与激光工程,2006,35(5):624-628.

[2]屠大维,张翼成.基于灰度差异的棋盘格角点自动检测[J].光学精密工程,2011,19(6):1360-1366.

[3]杨剑,杨秋翔,秦品乐.二维柔性拼接标定方法[J].光学精密工程,2011,19(5):1134-1142.

[4]牛海涛,赵勋杰.采用棋盘格模板的摄像机标定新方法[J].红外与激光工程,2011,40(1):133-137.

[5]黄风山,钱惠芬.三坐标测量机驱动的摄像机标定技术[J].光学精密工程,2010,18(4):952-957.

[6]崔彦平,林玉池,张晓玲.基于神经网络的双目视觉摄像机标定方法的研究[J].光电子激光,2005,16(9):1097-1100.

[7]tSaiRY.anefficientandaccuratecameracalibrationtechniquefor3Dmachinevision[C]∥proceedingsofieeeConferenceonComputerVisionandpatternRecognition.newYork:ieee,1986:364-374.

[8]tSaiRY.aversatilecameracalibrationtechniqueforhighaccuracy3DmachinevisionmetrologyusingofftheshelftVcamerasandlenses[J].ieeeJournalofRoboticsandautomation,1987,Ra3(4):323-344.

[9]tSaiRY,LenZRK.anewtechniqueforfullyautonomousandefficient3Droboticshand/eyecalibration[J].ieeetransactionsonRoboticsandautomation,1989,5(3):345-358.

[10]ZHanGZY.aflexiblenewtechniqueforcameracalibration[J].ieeetransactionsonpatternanalysisandmachineintelligence,2000,22(11):1330-1334.

计算机视觉的应用方向篇8

一、计算机辅助设计引入产业陶瓷的可行性

在世代相传的接受链中,一种新鲜事物的接受必然要经历不断加深、巩固、发展或修正、的过程,只要人类存在,这一过程便会无限延续下去,永远不会终结。新信息接受使判断原则和标准在这一过程中不断地变迁、更新。

在艺术的发展进程里,永远是累加的、递进的,而不可能是相互替代、此生彼亡的。日新月异的高科技迫使传统产业陶瓷的本性、结构与功能重新整合,与新元素解构重组。然而整合,或解构并不等于消亡,会依赖于实现多方向的应用来推进产业陶瓷的发展历程。说到底,是借助于计算机辅助设计的新手段获得了不断发展的空间。毫无疑问,在产业陶瓷走向数字化的过程中,产业陶瓷与计算机辅助设计结合也势在必行,甚至更应该走在最前面。此外,通过多方向应用来解决传统工艺上的各种弊端,从而促进产业陶瓷的发展。

计算机辅助设计技术构建了设计者与消费者之间“交互”的平台,是时间和空间、画面和声音、视觉和听觉的极大延伸和综合体,开拓了人类求知、审美的视野和境界;它是构成因素的综合,即集形、光、声、色、字、景、物、人等多种造型元素于一身,是在二维的平面上形成三维空间的幻觉,是一个物理――生理――心理时空综合效应的流程结构,是“一门艺术兼大规模交流思想的工具”。

随着计算机辅助设计技术的发展,虚拟数字影像的形成和产生不再是建立在视觉真实基础上的结果,在某一种程度上和具体物质现实可以没有更多的联系,我们完全可以用计算机辅助的方法得到我们所需要的任何形式的影像(即陶瓷产品虚拟影像)。计算机技术所产生的“虚拟现实”影像,在整体视觉影像上更具备客观世界的质感和效果,但实际上,这种画面在现实生活中并不存在,完全是人工合成的。计算机辅助设计技术使我们的陶瓷虚拟影像制作过程越来越简单化、形象化和实时化,而画面的效果却越来越好,越来越生动。我们可以在产品还没生产出来之前就看到画面的结果和效果,也可以即时的根据创作者意愿予以彻底的改变,这样不但节约了生产成本(避免生产出不满意的陶瓷作品而产生浪费),而且提高了工作效率。虚拟影像完全是制作者个人内心的一面镜子,影像本身与物质现实之间不需要“真实”的联系,我们看到的所有的影像都是建立在“假定性”基础上的真实。计算机技术所产生的影像形式感会十分鲜明,强调创造视觉效果,表达个人的风格与品味,技术完全是艺术的手段。数字化思考已经成为我们生活的一个部分,计算机辅助设计技术不仅仅是一种制作的手段,而是一种有效率的、有创造性的艺术创作过程。

计算机设计的虚拟影像成为一个“活动中心”,是在一个互动交流的过程中,由观众的接受反应融入才得以最后完成。虚拟影像不仅可以模拟现实的世界,更重要的是它可以通过计算机模拟出我们梦想中的天堂和完全臆想中的虚幻世界,人们将有广阔的虚拟空间,在其间娱乐生活。虚拟现实最重要也是最诱人之处是其实时性和交互性,虚拟现实技术将给人们带来全新的视野。虚拟影像之所以能够为观众接受,不是因为他们本身具有像语言文字一样明确的、可供传播的意义,而是观众先在地具有一种由无意识幻象、社会意识形态等自为元素构成的视野,这样的一种视野投射到陶瓷传播的影像上,才能使影像呈现意义.然而,这种意义不是固定的,因为每一个观者的目光不同,所以,每一个观者从同一个影像上获取的意义总是千差万别的。

随着计算机和网络技术的深化,一个新的数字时代即将到来,计算机辅助设计与产业陶瓷之间互相渗透、交融。现代产业陶瓷发生了革命性的变化,丰富的表现手法推动着产业陶瓷事业向前发展。在产业陶瓷领域引进大量的电脑、网络、多媒体、设计软件等高新技术,这些新元素的加入,将数字化和产业陶瓷有机地结合在一起,使其更真实、更准确体现艺术创作者的创作思维和意愿,使设计师与消费者之间更好的互动交流。

二、计算机辅助设计给产业陶瓷带来的巨大冲击

第五次信息革命始发于上世纪40年代,但真正触发人类社会大变革还是近十余年的事情。人们看到海湾战争使人类的战争形态完全改观,看到pC(个人电脑)和互联网的迅速普及极大地改变了人们的生存状态,看到各行各业都在大搞信息化,而只要一沾it的边,各行业都会魔幻般地发生神奇变化。现代科技的飞速发展,更使得以此作为依托的视听语言渗透到各个艺术领域,成为又一重要的大众传播媒介,时至今日已经被广泛接受。在全球数字化的过程中,我们对计算机技术正在扮演的角色的理解将有赖于我们对跨文化视觉表达的社会文化意义的把握,这一点可能从来还没有像今天这样清晰地显现出来,我们通过视觉形象相互表达并将这些表达加以理解,这种方式将成为视觉传播的中心环节。

计算机的发明完全改变了人类社会的整个发展态势,同时它几乎使所有行业都发生了实质性的变化,它使我们的工作更高效、轻松、便捷,令我们的生活更舒适、愉悦、充实。总之,它正以自己独有的方式重塑人类社会。各种影像和信息,经过剪辑和数字化处理后,能更完整的表达传播者的思想,所以数字影像显得尤为重要。与传统“图”、“文”、“物”相比照,计算机辅助设计技术和虚拟数字影像乃具有承袭、扩展、完善、顺向性发展的性质。

在产业陶瓷设计中,计算机可以帮助设计人员担负计算、信息存储和制图等项工作。在设计中可以用计算机对不同方案进行大量的计算、分析和比较,以决定最优方案。各种设计信息,不论是数字的、文字的、视频的或图形的,都能存放在计算机的内存里,并能快速地检索。设计人员可以用计算机设计产品草图,将草图变为多种复杂产品效果图的繁重工作可以交给计算机完成。由计算机自动产生的设计结果,可以快速作出图形显示出来,使设计人员及时对设计做出判断和修改。利用计算机可以进行与图形的编辑、放大、缩小、平移和旋转等有关的图形数据加工工作,还可以进行三维空间的展示。

计算机视觉的应用方向篇9

双目立体视觉是计算机视觉的一个重要分支,即由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,通过计算空间点在两幅国像中的视差,获得该点的三维坐标值。80年代美国麻省理工学院人工智能实验室的marr提出了一种视觉计算理论并应用在双睛匹配上,使两张有视差的平面图产生在深度的立体图形,奠定了双目立体视觉发展理论基础。相比其他类的体视方法,如透镜板三维成像、投影式三维显示、全息照相术等,双目本视直接模拟人类双眼处理景物的方式,可靠简便,在许多领域均极具应用价值,如微操作系统的位姿检测与控制、机器人导航与航测、三维测量学及虚拟现实等。

1双目体视的技术特点

双目标视技术的实现可分为以下步骤:图像获取、摄像机标定、特征提取、图像匹配和三维重建,下面依次介绍各个步骤的实现方法和技术特点。

1.1图像获取

双目体视的图像获取是由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,获取立体图像对。其针孔模型如图1。假定摄像机C1与C2的角距和内部参数都相等,两摄像机的光轴互相平行,二维成像平面X1o1Y1和X2o2Y2重合,p1与p2分别是空间点p在C1与C2上的成像点。但一般情况下,针孔模型两个摄像机的内部参数不可能完成相同,摄像机安装时无法看到光轴和成像平面,故实际中难以应用。

   上海交大在理论上对会摄式双目体视系统的测量精度与系统结构参数之间的关系作了详尽分析,并通过试验指出,对某一特定点进行三角测量。该点测量误差与两CCD光轴夹角是一复杂的函数关系;若两摄像头光轴夹角一定,则被测坐标与摄像头坐标系之间距离越大,测量得到点距离的误差就越大。在满足测量范围的前提下,应选择两CCD之间夹角在50℃~80℃之间。

1.2摄像机的标定

对双目体视而言,CCD摄像机、数码相机是利用计算机技术对物理世界进行重建前的基本测量工具,对它们的标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法,分别得到两个摄像机的内、外参数;再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。目前常用的单摄像机标定方法主要有:

(1)摄影测量学的传统设备标定法。利用至少17个参数描述摄像机与三维物体空间的结束关系,计算量非常大。

(2)直接线性变换性。涉及的参数少、便于计算。

(3)透视变换短阵法。从透视变换的角度来建立摄像机的成像模型,无需初始值,可进行实时计算。

(4)相机标定的两步法。首先采用透视短阵变换的方法求解线性系统的摄像机参数,再以求得的参数为初始值,考虑畸变因素,利用最优化方法求得非线性解,标定精度较高。

(5)双平面标定法。

在双摄像机标定中,需要精确的外部参数。由于结构配置很难准确,两个摄像机的距离和视角受到限制,一般都需要至少6个以上(建议取10个以上)的已知世界坐标点,才能得到比较满意的参数矩阵,所以实际测量过程不但复杂,而且效果并不一定理想,大大地限制了其应用范围。此外双摄像机标定还需考虑镜头的非线性校正、测量范围和精度的问题,目前户外的应用还有少。

上海大学通信与信息工程学院提出了基于神经网络的双目立体视觉摄像机标定方法。首先对摄像机进行线性标定,然后通过网络训练建立起三维空间点位置补偿的多层前馈神经网络模型。此方法对双目立体视觉摄像机的标定具有较好的通用性,但是精确测量控制点的世界坐标和图像坐标是一项严格的工作。因此神经网络中训练样本集的获得非常困难。

1.3特征点提取

立体像对中需要撮的特征点应满足以下要求:与传感器类型及抽取特征所用技术等相适应;具有足够的鲁棒性和一致性。需要说明的是:在进行特征点像的坐标提取前,需对获取的图像进行预处理。因为在图像获取过程中,存在一系列的噪声源,通过此处理可显著改进图像质量,使图像中特征点更加突出。

1.4立体匹配

立体匹配是双目体视中最关系、困难的一步。与普通的图像配准不同,立体像对之间的差异是由摄像时观察点的不同引起的,而不是由其它如景物本身的变化、运动所引起的。根据匹配基元的不同,立体匹配可分为区域匹配、特征匹配和相位匹配三大类。

区域匹配算法的实质是利用局部窗口之间灰度信息的相关程度,它在变化平缓且细节丰富的地方可以达到较高的精度。但该算法的匹配窗大小难以选择,通常借助于窗口形状技术来改善视差不连续处的匹配;其次是计算量大、速度慢,采取由粗至精分级匹配策略能大大减少搜索空间的大小,与匹配窗大小无关的互相关运算能显著提高运算速度。

特片匹配不直接依赖于灰度,具有较强的抗干扰性,计算量小,速度快。但也同样存一些不足:特征在图像中的稀疏性决定特征匹配只能得到稀疏的视差场;特征的撮和定位过程直接影响匹配结果的精确度。改善办法是将特征匹配的鲁棒性和区域匹配的致密性充分结合,利用对高频噪声不敏感的模型来提取和定位特征。

相位匹配是近二十年才发展起来的一类匹配算法。相位作为匹配基元,本身反映信号的结构信息,对图像的高频噪声有很好的抑制作用,适于并行处理,能获得亚像素级精度的致密视差。但存在相位奇点和相位卷绕的问题,需加入自适应滤波器解决。

1.5三维重建

在得到空间任一点在两个图像中的对应坐标和两摄像机参数矩阵的条件下,即可进行空间点的重建。通过建立以该点的世界坐标为未知数的4个线性方程,可以用最小二乘法求解得该点的世界坐标。实际重建通常采用外极线结束法。空间眯、两摄像机的光心这三点组成的平面分别与两个成像平面的交线称为该空间点在这两个成像平面中的极线。一旦两摄像机的内外参数确定,就可通过两个成像平面上的极线的约束关系建立对应点之间的关系,并由此联立方程,求得图像点的世界坐标值。对图像的全像素的三维重建目前仅能针对某一具体目标,计算量大且效果不明显。

2双目体视的最新应用

2.1国外研究动态

双目体视目前主要应用于四个领域:机器人导航、微操作系统的参数检测、三维测量和虚拟现实。

日本大阪大学自适应机械系统研究院研制了一种自适应双目视觉伺服系统,利用双目体视的原理,如每幅图像中相对静止的三个标志为参考,实时计算目标图像的雅可比短阵,从而预测出目标下一步运动方向,实现了对动方式未知的目标的自适应跟踪。该系统仅要求两幅图像中都有静止的参考标志,无需摄像机参数。而传统的视觉跟踪伺服系统需事先知道摄像机的运动、光学等参数和目标的运动方式。

日本奈良科技大学信息科学学院提出了一种基于双目立体视觉的增强现实系统(aR)注册方法,通过动态修正特征点的位置提高注册精度。该系统将单摄像机注册(mR)与立体视觉注册(SR)相结合,利用mR和三个标志点算出特征点在每个图像上的二维坐标和误差,利用SR和图像对计算出特征点的三维位置总误差,反复修正特征点在图像对上的二维坐标,直至三维总误差小于某个阈值。该方法比仅使用mR或SR方法大大提高了aR系统注册深度和精度。实验结果如图2,白板上三角开的三顶点被作为单摄像机标定的特征点,三个三角形上的模型为虚拟场景,乌龟是真实场景,可见基本上难以区分出虚拟场景(恐龙)和现实场景(乌龟)。

日本东京大学将实时双目立体视觉和机器人整体姿态信息集成,开发了仿真机器人动态行长导航系统。该系统实现分两个步骤:首先,利用平面分割算法分离所拍摄图像对中的地面与障碍物,再结合机器人身体姿态的信息,将图像从摄像机的二维平面坐标系转换到描述躯体姿态的世界坐标系,建立机器人周围区域的地图;基次根据实时建立的地图进行障碍物检测,从而确定机器人的行走方向。

日本冈山大学使用立体显微镜、两个CCD摄像头、微操作器等研制了使用立体显微镜控制微操作器的视觉反馈系统,用于对细胞进行操作,对钟子进行基因注射和微装配等。

麻省理工学院计算机系统提出了一种新的用于智能交通工具的传感器融合方式,由雷达系统提供目标深度的大致范围,利用双目立体视觉提供粗略的目标深度信息,结合改进的图像分割算法,能够在高速环境下对视频图像中的目标位置进行分割,而传统的目标分割算法难以在高速实时环境中得到令人满意的结果,系统框图如图3。

华盛顿大学与微软公司合作为火星卫星“探测者”号研制了宽基线立体视觉系统,使“探测者”号能够在火星上对其即将跨越的几千米内的地形进行精确的定位玫导航。系统使用同一个摄像机在“探测者”的不同位置上拍摄图像对,拍摄间距越大,基线越宽,能观测到越远的地貌。系统采用非线性优化得到两次拍摄图像时摄像机的相对准确的位置,利用鲁棒性强的最大似然概率法结合高效的立体搜索进行图像匹配,得到亚像素精度的视差,并根据此视差计算图像对中各点的三维坐标。相比传统的体视系统,能够更精确地绘制“探测者”号周围的地貌和以更高的精度观测到更远的地形。

2.2国内研究动态

浙江大学机械系统完全利用透视成像原理,采用双目体视方法实现了对多自由度机械装置的动态、精确位姿检测,仅需从两幅对应图像中抽取必要的特征点的三维坐标,信息量少,处理速度快,尤其适于动态情况。与手眼系统相比,被测物的运动对摄像机没有影响,且不需知道被测物的运动先验知识和限制条件,有利于提高检测精度。

东南大学电子工程系基于双目立体视觉,提出了一种灰度相关多峰值视差绝对值极小化立体匹配新方法,可对三维不规则物体(偏转线圈)的三维空间坐标进行非接触精密测量。

   哈工大采用异构双目活动视觉系统实现了全自主足球机器人导航。将一个固定摄像机和一个可以水平旋转的摄像机,分别安装在机器人的顶部和中下部,可以同时监视不同方位视点,体现出比人类视觉优越的一面。通过合理的资源分配及协调机制,使机器人在视野范围、测跟精度及处理速度方面达到最佳匹配。双目协调技术可使机器人同时捕捉多个有效目标,观测相遇目标时通过数据融合,也可提高测量精度。在实际比赛中其他传感器失效的情况下,仅仅依靠双目协调仍然可以实现全自主足球机器人导航。

火星863计划课题“人体三维尺寸的非接触测量”,采用“双视点投影光栅三维测量”原理,由双摄像机获取图像对,通过计算机进行图像数据处理,不仅可以获取服装设计所需的特征尺寸,还可根据需要获取人体图像上任意一点的三维坐标。该系统已通过中国人民解放军总后勤部军需部鉴定。可达到的技术指标为:数据采集时间小于5s/人;提供身高、胸围、腰围、臀围等围度的测量精度不低于1.0cm。

3双目体视的发展方向

就又目立体视觉技术的发展现状而言,要构造出类似于人眼的通用双目立体视觉系统,还有很长的路要走,进一步的研究方向可归纳如下:

(1)如何建立更有效的双目体视模型,能更充分地反映立体视觉不确定性的本质属性,为匹配提供更多的约束信息,降低立体匹配的难度。

(2)探索新的适用于全面立体视觉的计算理论和匹配策略,选择有效的匹配准则和算法结构,以解决存在灰度失真、几何畸变(透视、旋转、缩放等)、噪声干扰、特殊结构(平坦匹域、重复相似结构等)及遮掩景物的匹配问题;

(3)算法向并行化发展,提高速度,减少运算量,增强系统的实用性。

计算机视觉的应用方向篇10

近年来,随着计算机视觉和模式识别等技术的快速发展,在计算机科学范畴提出了计算美学的概念,希望研究“美”的可计算方法,使计算机能模拟人类自主地理解、推导和计算“美”,并在相关应用中做出可行的美学决策.

图像美学可以定义为人们在观察图像时引发的美学兴趣.可计算的图像美学是计算美学在图像理解方面的重要探索,其研究目的是希望计算机能够模拟人类视觉及审美思维,进而对图像进行美学决策、建立计算机与视觉艺术作品之间的桥梁;使计算机能够自主地对图像的“美”进行定量的分析、计算和评价,比如评价美学指数、判断绘画的美学风格等;通过对图像的美学分析、计算和评估,理解用户的美学感受,帮助寻找到最适合用户心理需求、具有积极情感影响的目标和方案,这对于实现和谐的人机交互具有重要的意义.其研究结果可应用到融合主观感知的基于语义的图像检索、图像美学质量评估、摄影的美学预测与修正、艺术作品风格分析、人机交互,以及设计、摄影、广告等领域.相关研究涉及到艺术、认知科学、心理学、计算机科学等多个学科,属于多学科交叉的创新性前沿研究课题,具有重要的理论价值和应用前景.

由于审美的主观性和复杂性,可计算美学的研究存在一定的难度.1988年,李介谷撰写的《图像处理技术》一书中,曾提及Sasaki提出的关于美函数的概念,他认为图像之所以给人以美的印象与图像的总体布局有关,总体布局包括图像中各对象的布局和总体色调等.2005年,Hoening在计算机科学领域提出了可计算美学的研究,阐释了可计算美学的概念,推动了结合人类感知的可计算美学决策应用的发展.

针对图像美学分类与评价,宾夕法尼亚大学的wang领导的研究小组,率先实现了图像视觉特征到图像美学判定的关联.他们基于摄影美学相关的一些简单规则,提取了包括图像的亮度、色彩分布、小波变换、景深等35个图像特征,并结合特征选择提取了最有效的15个特征,使用支持向量机方法(supportvectormachine,SVm)对高美感和低美感的图像进行分类;而后采用多元线性回归、利用图像特征评估图像美感分数值.虽然评估结果正确率不高,但显示出可计算图像美学分析是可行的.

不少专家学者在其成果上进一步开展与图像美学评价相关的研究,如wong等[7]将视觉注意机制引人美学分类,提取出区域特征,获得了更好的分类效果;wu等实现了图像美感标签(如beautifulvs.ugly)的自动标记,这实际上还是属于图像的美学分类问题;卡内基梅隆大学的Li等™从艺术美学的角度出发,设计了相应的艺术美学特征,实现了绘画作品的美学视觉质量高低两类别分类;marchesotti等设计了一种图像低层局部特征描述子来评估图像美学质量,给出了一种自底向上的特征提取思路.

图像美学研究的另一个方向是基于美学规则的图像美化.Liu等利用三分法、对角占优等美学构图规则,通过调整原始图像的布局实现图像美化;Bhattacharya等将图像美学应用到图像修改和重建中,利用美学中的三分之一法则改变图像中的主体目标的位置或对图像进行空间重构,以提升照片的视觉美感.

总的来说,图像美学的相关研究在国内外刚刚兴起.在美学分类与评估方面,目前大部分研究只是简单地对图像的美感等级进行分类,其采用的图像特征相对简单,对包含重要信息的区域特征以及结合人类视觉感知的高层美学特征缺乏重视.

1.图像美感分类与评估方案设计

本文提出一种根据人类视觉及审美习惯来评价图像美学价值的可行方案,通过提取符合人类视觉审美的高层美学特征以及包含图像重要信息的区域特征,采用机器学习方法建立模型来实现模拟人类审美感知的图像美学自动评价.图1所示为本文图像美学自动评价系统的框架.

图像的关键区域包含了重要的、主导图像内容的有用信息,在很大程度影响了人们的审美决策.因此,本文不仅对图像整体区域进行分析,还提取了图像关键区域的特征.

此外,为了克服低层视觉特征难以表述人类对图像美感感知的缺陷,在计算低层视觉特征的基础上,引人图像的复杂度特征、色彩均衡性特征、图像能量和景深特征等图像高层美学特征,使之能有效地描述图像,更符合人类对图像美感的感知.

本文的可计算图像美学分析研究主要包括2部分:图像美感等级分类和美学分数评估.图像美感等级分类模型可自动将图像分为高美感和低美感2类,对应机器学习中的分类问题;图像美感分数评估模型可以自动给出图像美感的具体分值,对应于机器学习中的回归问题.本文分别采用SVm分类算法和支持向量回归(supportvectorregression,SVR)算法对图像特征数据进行训练学习,建立了图像美感等级分类模型和图像美感分数评估模型,实现了机器自动对图像的高、低美感进行分类,并给出与人的审美思维相近的美学分数.

2.图像关键区域提取

Step2.图像分割.显著性计算是基于像素的计算,要提取出关键区域,还需要与图像分割方法相结合.

图像分割指的是将图像细分为多个图像子区域的过程.在图像分割问题中,meanShift分割算法是一种比较成熟的算法,它基于区域进行分割,综合考虑图像的空间信息和色彩信息,依靠特征空间中的样本点进行分析,与人眼对图像的分析特性相近,无需任何先验知识,且具有收敛速度快的特点,分割效果好,且鲁棒性强.因此,本文采用meanShift算法对显著图进行图像分割,得到分割块.

Step3.关键区域提取.根据分割块的平均显著性选择分割块,具体步骤如下:

计算每个分割块k的平均显著性St其中,为分割块々中像素总数,^为点j的像素值,/„是分割块6中所有像素的平均值.如果S*>2XS„,即分割块是的平均显著性大于整幅图像的平均显著性的2倍,标记出这个分割块;最后将所有被标记的分割块组合,得到显著区域提取图,将其作为图像的关键区域提取图.经过上述步骤所提取的图像关键区域,基本能代表图像的关键信息,具体示例如图3所示.为提取图像关键区域,主要包括显著性计算、图像分割和关键区域提取3个部分.图2所示为本文提取关键区域的框图.

Stepl.显著性计算.本文参考八(^1«3等的显著区域检测方法提取显著区域,并将其作为图像关键区域.该方法基于Lab颜色空间计算图像的显著性,对于一幅图像令h为图像7所有像素的平均值,乙为图像J高斯模糊后的图像,和L都用Lab颜色空间表示,通过计算L和込的欧氏距离来计算显著性,显著图得到图像显著图后,计算图像平均显著性

  3.图像特征提取

目前从图像中提取低层客观特征(如颜色、纹理、形状等)的算法已经日趋成熟,但是以美学评估为目的的图像特征提取需要结合艺术、心理学和摄影的相关基础理论,寻找出与人的感知和美学密切联系的相关特征,并运用适当的方式进行描述.基于美学的图像特征提取是图像美学研究的核心部分.

本文所计算的图像特征包括低层视觉特征、高层美学特征和区域特征.

3.1低层视觉特征

低层特征具有直观的视觉表达意义,可以独立地、客观地描述图像内容.本文提取的常用低层视觉特征包括颜色特征、纹理特征和形状特征;其中颜色特征包括基于非均匀量化的HSV颜色空间的128维的颜色直方图/!〜/128,以及H,S,V3个分量的一、二、三阶矩(9维)/129〜/137.

本文采用Gabor特征、tamura特征和灰度共生矩阵来表征图像的纹理特征.对每幅图像计算了6个方向、4个尺度的滤波后平均值和方差,形成48维的Gabor特征向量/us〜/iss.而tamura特征中,提取了粗糙度、对比度、方向性、线性度、规则度和起伏度,共6维特征/186〜/191.对于灰度共生矩阵特征,提取了4个方向的5个纹理特征属性/192〜/2„,包括角二阶矩、熵、对比度、均匀度和相关度,共20维.对于形状特征,则是基于Sobel算法的图像边缘梯度幅值和方向,得到16维的边缘方向直方图212'.fin最终,从每幅图像提取了一个227维的低层视觉特征向量.

3.2高层美学特征

由于低层视觉特征与人对图像的理解判断之间存在着较大的差异,基于美学的图像特征提取是图像美学研究的核心部分.本文总结了已有的研究成果,结合审美心理学、美学度量和摄影规则等与人类美学感知相关的各个方面,计算了图像复杂度特征、图像色彩均衡性特征、图像能量和景深特征作为图像高层美学特征.通过实验验证,本文所计算的高层美学特征能更好地表述图像信息和美感信息.

3.2.1图像复杂度特征

图像复杂度指的是图像本身所具有的色彩分布、形状分布、纹理分布以及结构分布等的复杂性程度,被认为是高度相关的审美测度之一.

1933年,美国数学家Birkhoff[14]就提出了著名的美学度量(aestheticmeasure,am)公式

其中,o。表示事物内在的秩序,0。表示事物内在的复杂性.式(1)显示美学度量与事物内在的秩序与复杂性相关,它被认为是计算美学的雏形.虽然其缺少具体的计算方法,但这些理论对相关工作具有十分重要的指导意义.

machado等[15]在式(1)的基础上针对图像的美学度量提出了美学公式,并将其中变量的计算具体化.他们认为图像的“美”的度量与图像复杂性(imagecomplexity,1C)成正比,与人脑对图像的处理复杂性(processingcomplexity,pC)成反比,内在重复性高的图像(如分形图像)虽然1C高,但是人在识别和理解时的处理却相对简单,即pC低,所以会感觉美.因此,他们给出美学公式m=iC/pC;其中1C用JpeG压缩图的误差与压缩率的比值表示,pC用分形图像压缩率来表示,并通过心理学绘画欣赏测试实验验证了其方法的有效性.

本文结合目前关于复杂度的研究成果,以信息理论、Kolmogorov复杂度、物理摘,以及图像处理等的基本知识为背景,归类并计算了pC复杂度(包括秩序复杂度和熵复杂度),以及1C复杂度(包括色彩复杂度和纹理复杂度)作为图像复杂度特征.

1)pC复杂度

复杂度的概念最早是由Kolmogorov提出的,其描述的是一维信号或序列的不规则程度,其最大的缺点是不可计算.Rigau等利用心理学理论的观点和思路拓展了Birkhoff的美学信息度量,给出了结合信息论和Kolmogorov复杂度的美学量化方法,包括利用色彩分布信息计算图像的Shanno摘来定义的测度iwB,利用Kolmogorov复杂度结合JpeG压缩比率定义的测度mK,以及从2肛吐的物理熵观点得到的测度mz.通过在3种不同风格油画作品上的美学数字化分析,验证了这些量化测度的有效性.

借鉴Rigau等[17]的研究,本文采用JpeG编码后的文件大小K来近似Kolmogorov复杂度,并结合Zurek物理熵的观点定义图像的计算复杂度,包括秩序复杂度、熵复杂度,具体如下:

秩序复杂度.是从空间信息规律呈现角度来计算图像的构图复杂性.当图像越有秩序、越有规律时,进行】peG压缩的压缩程度会越大秩序复杂度mk的计算式为

其中,为图像的最大信息熵,所得到的(JVXHmax)为图像JpeG编码前的大小,K为编码后的大小.这样,我们得到了秩序复杂度特征/228.mk值越大,图像压缩量越大,说明图像具有秩序,越具有审美性.

熵复杂度.是基于Zurek的观点计算的,即采用物理熵来衡量图像的复杂度,是Sharmo熵和Kolmogorov复杂度的结合即mz=K;其中,为颜色分量的平均熵,K为编码后大小.mz越小,图像越具有美感.这样,我们得到了熵复杂度特征.

2)1C复杂度

本文计算的1C复杂度包括色彩复杂度和纹理复杂度.

色彩复杂度.基于HSV颜色空间的图像信息量和信息熵理论,定义图像的色彩复杂度.3个颜色通道的信息量分别为Hh,Hs,Hv;wH通道为例,色彩复杂度为

其中,iV为图像的像素总数,pH(;r)为图像H通道上第工维像素的概率.色彩复杂度越大,表明图像所含色彩信息越丰富,图像越具有美感.这样,我们提取了3个颜色通道H,S,V的色彩复杂度/23。〜/232.

纹理复杂度.图像纹理的有序性、规律性反映了图像本身的复杂情况.灰度共生矩阵能较好地描述图像灰度的空间分布情况和图像的整体纹理复杂信息,本文借鉴了高振宇等方法计算灰度共生矩阵的各个特征值并加权,用以衡量图像的纹理上的复杂度.

通过计算灰度共生矩阵的能量特征£:、对比度S、信息熵H、相关度C,以及图像边缘比率尺后,赋予各个特征不同的权重,对它们加权后构成纹理复杂度,其计算公式为mt=H+i?+S—C_e.这样,我们提取了纹理复杂度特征.

3.2.2图像色彩均衡性

色彩均衡是形式美的另一种构成形式,其表现为色彩强弱、轻重的均衡性,能够给人相对稳定的视觉生理和心理感受.色彩均衡是色彩给人重量感的对称性,是重色与轻色相互均衡.一般来说,色彩的重量感取决于色彩的明度,例如深色、浓色会给人重的感觉;而浅色、淡色会给人轻的感觉.人们在观察一幅图像时,均衡的色彩分布、稳定的视觉以及好的心理感受能增强图像的美感.

本文使用了2种衡量图像色彩均衡性的度量,包括色彩熵分布和色彩视觉平衡性.

色彩熵分布.本文从信息熵的角度考虑,通过色彩分布信息计算图像的Sharnio熵来定义色彩分wmB=(Hmax—其中,H咖x为图像的最大信息熵,为HSV各个颜色分量的平均信息熵,得到的为绝对冗余.mB越小,图像中各种色彩使用越均衡.这样,我们提取了色彩熵分布特征.

色彩视觉平衡性.推土机距离(earthmover’sdistance,emD)是Rubner等提出的一种相似性度量,其采用求解最小运输成本的基本思路来求2个待匹配对象间相似性,这实质是一个双向网络最优路径的选择问题.emD是一种反映计算机视觉感知相似性的距离度量,通过计算原图像与色彩均匀分布的理想图像之间的颜色emD,可以衡量图像的色彩视觉平衡性.

对LUV色彩空间进行64等分均匀量化,对于色彩分布均匀的理想图像,其64个色彩分量值是相等的.一幅图像与理想图像之间的色彩分布相似性用emD距离[4]表示,具体为emDLuvsemcKD,,D2,{d(a,6)|0

同时,参考在LUV空间的做法,在RGB空间中,我们也采用同样的方法计算得到图像的色彩视觉平衡性特征emD^b.这样,我们提取了二维emD距离特征.

3.2.3图像能量

图像能量是从统计特性上描述图像的一种基本属性,是图像信息丰富与否的体现,它与图像美感密切相关.

由于图像的小波系数代表了图像的主要能量,本文对单通道图像进行3层Daubechies小波变换,并计算每一层变换的HH,HL,LH频带能量和,以此作为图像的小波能量值.

对于3个单通道图像JH,JS,iV分别进行3层小波变换得到每一层的小波变换系数为0^,|_={1,2,3};当i=l时,表示第一层小波变换.因此,每个单通道的每一层的图像能量可以表示为

其中,S,=|丨+|w1|+|丨m.每个通道的3层平均小波系数之和表示该通道的小波能量,对应求得3个通道的小波能量分别为£gH,我们提取3个通道每一层的能量及其小波能量,共12维特征,即/Z37〜/248.

3.2.4图像景深

在摄影中,景深是当镜头对准某一点聚焦时其前后都仍可清晰的范围,它能决定是把背景模糊化来突出拍摄对象,还是拍出清晰的背景.专业摄影师往往通过设置小景深得到主体清晰、背景模糊的照片,从而达到中心明确、突出主题的目的,这样的图像往往更具美感.

参考文献[4]的做法,我们利用HSV图像的Daubechies小波变换来定义景深.首先对图像进行4X4的网格分割,得到16个矩形图像分块,按照从左到右、从上到下的顺序标明图像分块序号,依次是{m,,m2,-,m16},中心区域位置为{ms,m7,m10,m„}.接着对图像3个单通道图像(JH,JS,JV)进行3层Daubechies小波变换,然后计算小波系数能量值用以衡量景深.景深(lowdepth,LD)定义[4]为

其中,w3(x,y)为单通道图像经过3层小波变换后像素p(x,y)的小波系数能量值;而m,G'=1,2…16)表示各个用于景深计算的图像分块.

为此,对HSV图像3个单通道图像JH,iS,JV计算的景深值分别为LDH,LDS,LDV,即特征f24s〜/251。

3.3区域特征

图像的关键区域包含了图像最主要的信息内容.视觉心理学研究表明,在观察图像时,关键区域会吸引人们大部分的兴趣和注意力.因此,在美学分析中,关键区域相比其他区域更有价值.wong等[7]利用视觉显著模型提取显著区域,并提取显著区域的区域特征,将其应用到图像美学分类中,提高了分类正确率.

对于图像的关键区域,人们往往更多地关注该区域的颜色分布、纹理情况、形状大小和形状比例等.因此,本文计算了关键区域的颜色矩和形状比特征,颜色矩包括H,S,V3个颜色通道的一、二、三阶矩(/252〜/26。),形状比(/m)为关键区域像素总数与原图像的像素总数的比率,得到10维的区域特征.

最终,对每一幅图像提取了包括低层特征、高层特征和区域特征共261维的特征向量.

4.学分类与评估模型建立

自动将图像分为高美感和低美感类别是一个分类问题.SVm算法是一种监督学习模型,由Cortes等[22]首次提出,它的基本思路是构造最优分类超平面,使类间间隔最大.它解决了神经网络中过学习与欠学习的问题,在高维空间的运算避免了“维数灾难”,泛化性能好,在解决小样本、非线性、高维模式识别问题中优势较为明显.在图像美学分类学习中有较多采用SVm算法,已有相关研究验证了其在该领域的有效性.所以,本文采用SVm算法对图像进行高、低美感分类,并使用基于混渚矩阵的分类准确度来衡量分类性能.在分类模型测试中,通过网格搜索技术寻找到SVm中RBF核函数的最优参数C=256,y=0.5.

图像美学分数评估是模拟人的感知自动给出图像的美学分数,属于回归问题.本文采用SVR算法,并选用RBF核函数对其进行训练学习,获得美感分数评估模型.通过将模型自动评分的结果与人类主观美感评分进行对比,计算相关系数、均方根误差(RmSe)、平均绝对误差、平均相对误差和剩余标准差等指标来衡量系统的性能.其中相关系数越高、各类误差越小时,说明回归性能越好.在评估模型测试中,通过网格搜索技术寻找到SVR中RBF核函数的最优参数C=l.0,7=0.0625,e=0.5类,共得到高美感图像750幅,低美感图像644幅,用于美学分类实验.

本文采用第3节方法提取了261维的图像特征,分别采用SVm算法实现美感等级(高美感与低美感)的图像分类,同时采用SVR算法实现图像美学分数的评估.

为了验证本文提取的各类特征的有效性,我们对比了不同类别特征(低层特征227维、高层特征24维、区域特征10维)的分类效果和回归性能,如表1〜2所示

从表1我们可以看到,只采用低层特征的平均分类准确率为72.21%;加人高层特征和区域特征后的平均分类准确率提升为75.37%.表2所示为美学分数评估的回归模型结果对比,其反映了模型自动评估结果与人类主观美学评分之间的相符合的程度.从表2中可以看到,当只采用低层特征时,美学分数自动评估结果与人的主观美学评价分数的相关性为0.753;加人高层特征和区域特征后,相关系数提高到0.79,同时各类误差都更低.

表1和表2的数据说明,本文提取的与人类的视觉系统、审美思维相关的高层特征和区域特征是有效的.通过本文模型能自动分析出图像的美感等级和美学分数评估值,结果符合人对图像的美学感知.图5所示为本文方法的评价示例.