计算机视觉的方向十篇

发布时间:2024-04-26 03:19:07

计算机视觉的方向篇1

关键词:计算机视觉;课程创新;教学改革

中图分类号:G642.0文献标志码:a文章编号:1674-9324(2016)20-0118-02

计算机视觉课程是人工智能学科的分支学科,对互联网技术的发展有着重要的推进作用。随着时代的飞速变迁,越来越多的学生对这一领域产生了浓厚的兴趣,计算机视觉课程在信息专业中也开始占据重要的地位。如何让学生对这门课程保持长久的兴趣,如何培养学生的专业能力和实践能力,是当前高校应该考虑的问题。经过近几年的教学实践后,很多高校已经逐步确定了通过实际应用培养学生兴趣的教学方法,在满足学生对计算机视觉应用需求的同时,加深了学生对理论知识的理解,这已经成为了当前高校计算机视觉课程教学的重要模式。

一、计算机视觉课程的特点

近年来,随着计算机网络的飞速发展,计算机视觉的应用也越来越广泛,成为了信息相关专业学生的一门必修课。计算机视觉课程涉及众多领域,包括人工智能与模式识别、应用数学等,其覆盖范围广,综合性较强。具体来说,计算机视觉课程有以下几个特点:一是内容广泛,理论抽象。计算机视觉是一门新技术,随着时代的变迁,互联网新技术的更新日新月异,这就使得课程内容的更新过快,内容广泛,教师很难在第一时间向学生输送所有的课程知识。二是计算机视觉课程涉及多个学科领域,并且所涉及的领域知识内容复杂,表达抽象,这对学生的学习来说是一个较大的障碍。三是实践性强。计算机视觉课程的知识内容来源于各种专业不同的领域,操作性极强,学生只有在具有一定的工程项目综合能力后,才能进行计算机视觉应用和操作。

二、计算机视觉与计算机图形学、数字图像处理之间的联系和区别

1.计算机视觉与计算机图形学的联系与区别。计算机视觉一般输入的都是图像或图像序列,其输入资料主要来自usb摄像头或是相机。经过处理后,计算机视觉输出的是对图像序列和图像对应的对真实世界的一种理解,在这一方面,计算机视觉有识别车牌、人脸的作用。而计算机图形学则是一种对虚拟场景的描述。它一般是由多个多边性数组组成,每个多边性有三个顶点,输出的是二维像素数组。在增强现实的应用中,人们不仅需要用计算机视觉来提高对物体识别和姿态获取的效率,还需要用到计算机图形学对虚拟三维物体的叠加方法。

2.计算机视觉与数字图像处理的联系和区别。首先,计算机视觉与数字图像处理之间的联系在于数字图像处理是计算机视觉处理的基础,而计算机视觉的研究成果也可以作为数字处理的素材。其次,计算机视觉与数字图像处理之间的区别在于图形是一种纯数字化、矢量的单位,而图像则不仅包括图形,有时还包括来自现实世界的信号,并且图形的处理不是一种简单的堆积,计算机视觉的处理要从图像中找到一些统计数据和信息,并做进一步的数据分析。

三、高校计算机视觉课程教学的创新策略

1.以工程应用为导向的课程内容。鉴于学习本课程的学生在毕业之后多数会进入相关工程企业或者研究院工作,因此,在对学生进行培养时,高校一方面要考虑到学生的知识接受度,另一方面要设置以工程应用为导向的课程内容,帮助学生更好的进入企业或研究院开展工作。高校在进行计算机视觉课程教学创新时,首先要创新课程教材,摒弃以往枯燥的理论书籍,多选取一些实践性和应用性强的教材。考虑到国内教材的滞后性和学生基础的薄弱性,高校应该选择以下两本书作为学生的专用教材:一本是我国著名教授贾云得编纂的《机器学习》,这部教材深刻体现了时展的教学要求,书中不仅详细讲述了计算机视觉中的一些基本知识,包括计算机视觉的基本概念、算法及其应用,还有一些经典的数字图像处理方法和视觉应用分析,对学生了解基础知识和实践内容有着重要的意义;另外一本是国内外十分推崇的计算机视觉著作,它是美国教授RichardSzeliski教授的作品。该书在2010年出版,获得了众多业界人士的好评。RichardSzeliski教授是华盛顿大学的兼职教授,也是微软研究院交互视觉与多媒体的主任,他对计算机视觉的发展和未来走向十分清楚,也深刻了解产业界和大学需要什么样的计算机视觉课程教材。因此,这本教材面向应用,与当今最新的科技成果紧密相连,综合论述了计算机视觉在各个领域的发展,展示了计算机视觉的最新研究成果和未来的发展趋势。此外,本书中还有详细的国外研究案例和更加深入的应用案例,适合学生开展探究性学习。两本教材都是遵循以工程应用为导向的原则,对学生开放性思维的培养有着重要的意义。

2.面向科技最新成果的课程定位。计算机视觉是一门新技术,科技创新是其发展的原动力,因此,高校在进行课程安排时,应该将当今计算机视觉领域的重要的科技成果作为计算机课程的基本教学内容。要想以科技最新成果定位计算机视觉课程,高校要做到以下两个方面:(1)选取涵盖最新成果的教材。考虑到不同学生的数字图像处理基础不一的问题,学校可以在课程中补充一些有关数字图像处理的基础内容。在选择教材内容时,计算机视觉课程的内容应该包括数字图像处理、视觉学习和模式识别这三大部分。数字图像处理是视觉课程的基础内容,主要向学生介绍数字图像处理和计算机视觉所涉及的一些基础知识,包括图像的分割和检测、图像滤波的处理等。数字图像处理是整个计算机课程学习的重要基础内容,其课时可占总课时的二分之一。其次,视觉部分是近几年来计算机视觉的最新科技成果,内容主要包括摄像机的几何设定和计算机摄影机的序列处理等。作为最前沿的科技领域,视觉部分将会是该课程后期的重点内容,与实践作业紧密结合。而模式识别则更多的是新技术的一种工程应用,学生会更多的涉及到实践操作,更好的培养学生的实践能力。(2)强化学生自学和调研能力。课程调研和实践是信息专业学生强化能力的重要方法之一,高校可以在课程项目中引入新技术的探究,在使课程在具有基础性、研究性的同时,具有一定的前沿性,还能让学生在第一时间了解到最新的科技成果和互联网应用技术。在课程调研和实践中,高校必须要强化学生的自学和调研能力,在调研时给每一个小组安排一位高年级研究生作为指导,每组学生独立完成任务,高年级研究生只做引导和辅助的作用。学生在自我设置调研程序,查找资料,理解和熟悉相关程序的时候,能够更加掌握最新科技成果的内容,同时还提高了学生的自学能力和团队协作能力。

3.工程实践化的教学形式。工程项目综合能力是信息专业的学生必须具备的素质之一,因此在计算机视觉课程的教学过程中,培养学生的工程实践能力是教学目标之一。高校可以采取以下两种方法:(1)选取适当的工程实例。对于信息专业的学生而言,计算机视觉课程各个独立的算法和方法较多,彼此没有过多的联系。这对学生来说过于抽象,不易理解,因此教师不应当仅仅限于知识的传授,还应该选取一些适当的工程实例,将知识体系串联在一起,加深学会对教学内容的理解,从而达到良好的教学效果。例如,在教学过程中,教师可以着重介绍手机制造的例子。手机是现在学生十分熟悉的产品,用手机举例更加贴近学生的生活,教师可以详细介绍手机键盘和主板的制造过程,并在这一过程中将所学的算法和理论融合进去,加深学生对知识的理解。其次,教师在手机讲解时,还可以引导学生思考类似的产品制造,从而引出数码相机的制造原理,和学生一起探讨其制造算法。这种做法不仅可以帮助学生学习,还可以让学生拓宽思路,发散思维,不断创新计算机视觉领域。(2)选择合适的实际应用。计算机视觉课程是一门实践性和操作性极强的学科,因此,为了学生更好的学习,教师要将理论工程实践化,选择合适的实际应用来提高学生的实践能力。教师可以安排学生进入手机制造厂房,给学生上一堂别开生面的实践课,详细介绍每个制造流程,并向学生不断抛出与课程有关的问题,引发学生的思考,比如选择什么样的模板匹配法可以更为简单。学生在不断的解答和提问中,对学科知识的了解也会逐步加深。其次,高校可以建立专门的实训基地,学生可以在基地里实践操作,将理论转化为实物,亲自尝试做出模型,这种做法可以极大地提高学生的实践能力,使学生更快的将理论转化为实际。

四、结语

在新形势下,高校应不断创新计算机视觉课程的教学模式,并以此展开教学活动,培养学生的实践能力和创新精神。将工程应用和科技最新成果结合的教学模式,有利于解决理论和实践相脱节的问题,在增强学生学习兴趣、提高学生独立分析能力的同时,还使学生接触了国际最新的研究成果,拓宽了学生的思路,这对学生未来的发展有着重要的意义。

参考文献:

[1]郭小勤,曹广忠.计算机视觉课程的CDio教学改革实践[J].理工高教研究,2010,(05).

[2]伦向敏,侯一民.高校《计算机视觉》课程辅助教学系统的研究[J].教育教学论坛,2012,(18).

[3]陈芳林,刘亚东,沈辉.在《计算机视觉》课程中引入研讨式教学模式[J].当地教育理论和实践,2013,(07).

[4]杨晨.视觉传达设计专业插画设计课程创新与实践人才培养机制探究[J].艺术科技,2015,(05).

[5]蒋辰.基于数字媒体环境的视觉传达设计专业综合实验课程改革探证[J].文艺生活:中旬刊,2015,(07).

[6]张胜利.视觉传达设计专业中色彩风景写生课程多元立体化教学模式的构建[J].美术教育研究,2015,(08).

计算机视觉的方向篇2

[关键词]计算机视觉视觉框架三维表示

中图分类号:tp338.6文献标识码:a文章编号:1009-914X(2015)47-0133-01

1计算机数字视觉技术研究的地位

长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,这些努力的阶段性理论研究成果已经在人们的生产生活中发挥了不可估量的作用。计算机视觉(CV)研究的主要内容是通过计算机分析景物的二维图像,从中获得三维世界的结构和属性等信息,进而完成诸如在复杂的环境中识别和导航等任务。计算机视觉研究的重要性是不言而喻的,会产生深远的经济和科学的影响。

20世纪下半叶以来,很多研究者都曾试图通过视觉传感器和计算机软硬件模拟出人类对三维世界图像的采集、处理、分析和学习能力,以便使计算机和机器人系统具有智能化的视觉功能。今天,数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使数字视觉技术的革新。数字视觉技术的应用十分广泛,如数字图像检索管理、医学影像分析、智能安检、人机交互等。

数字视觉技术是人工智能技术的重要组成部分,也是当今计算机科学研究的前沿领域,经过近年的不断发展。已逐步形成一套以数字信号处理技术、计算机图形图像、信息论和语义学相互结合的综合性技术,并具有较强的边缘性和学科交叉性。

2计算机数字视觉技术研究的核心问题

视觉问题复杂性的本质在于相对声音等物理信号的描述,视觉信号充满了非常丰富的信息,描述起来也更加困难。如何攻克图像信息提取过程中的各种难题一直是当今计算机图像学研究的热点问题,而且在科学家们还未完全破译生物视觉系统的奥秘的前提下,大多数问题只能采用逆向推导机制,依据已知或假设的关联将视觉系统的输入数字图像和输出语义描述对应起来。基于概率论和数理统计的数学模型是最适合解决这类逆推问题的工具,这也是目前领域普遍采用各种统计模型和机器学习算法的本质原因。

物体的三维表示是计算机视觉研究的一个关键问题。八元树(octree)表示法是一种紧凑、简洁的物体三维表示法,近年来这种表示法被广泛地应用到计算机视觉的研究领域。广义八元树表示法的优点是不受视图个数的限制,通过增加观察方向可以计算出更加精确的物体三维表示。主要缺点是需要进行多次坐标变换,在计算机上实现时需要研究相应的离散技术。线性八元树(linearoctree)是较八元树更加简洁的表示形式。

3计算机视觉技术结构及其研究基本框架

计算机视觉技术内在的逆推机制决定了其在系统开发时必须将原始图像数据与其蕴含的知识之间的语义鸿沟加以弥补,在满足特定应用需求的前提下进行合理的图像内容简化和假设,形成目前普遍使用的计算机视觉系统结构:即图像数据层、图像特征描述层及图像知识获取层。由于各种图像特征都有其优点及不足之处目前趋势是结合不同种类的特征对图像内容进行综合表述,以建立较为可靠的图像信息模型,比如利用时空体数据结构对人体行为等视频内容进行描述。

计算机视觉技术的研究主要围绕着四个基本理论框架:以marr视觉计算理论为核心的深度重建框架;以感知特征群集为主线的基于知识的视觉框架;以“感知一动作”为基础的主动视觉理论框架;以综合集成理论为指导的视觉集成框架。其中,视觉集成理论框架是计算机视觉研究中一个较新的理论框架,并越来越多地受到cv研究者的关注。视觉集成理论的研究内容大致可以分为三个方面,第一方面的研究内容是关于视觉信息与其它类型信息的集成。第二方面的研究内容是关于视觉表示和视觉模型的集成。视觉表示方法主要分为三类:图像表示、表面表示、物体表示。视觉模型王要分为图像模型、结构和形状模型、运动和动态模型、不确定性模型。集成的视觉系统应该能够充分利用这些方法的优点。第二方面的研究内容是系统的集成。

4计算机视觉的发展历程及其趋势

一般认为,计算机视觉技术研究始于20世纪50年代中期,当时的努力主要集中在二维景物图像的分析。区别在于,图像处理的目的是通过处理原始图像得到在某一方面更有利的新图像。模式识别关心的则是将一些模式归入预先定义的有限类别中,主要研究的是二维模式。而计算机视觉主要考虑的是对三维世界的描述和理解。

一般来说,比较一致的观点认为,计算机视觉的研究起始于1965年Rboesrt开创性的工作。Rboert对“积木世界”研究取得的成功激起了人们很高的期望。

60年代末70年代初期,计算机视觉研究领域的很多工作是关于低层视觉处理,从图像中提取重要的强度变化信息――边缘检测。然而,人们很快就认识到很多重要的物体属性无法只通过分析图像的灰度变化得出。到了70年代初期,问题更加明朗化,低层视觉处理无法从单幅图像中普遍地获取对景物的有用描述,计算机视觉的研究领域普遍地发生危机。为了摆脱困境,计算机视觉迫切地需要有一个统一的理论框架作指导。70年代中期到80年代初期,计算机视觉的研究领域首次出现了一个理论框架:视觉计算理论框架,将视觉系统从概念上分成几个独立的模块。80年代后期,计算机视觉的研究领域出现了主动视觉(`vtievsiino)的理论框架。

近年的研究结果表明,单一的图像特征描述机制,无论是对底层像素级特征的描述还是顶层语义特征的描述。都仅能在有限范围内对图像的内容进行建模。巧妙融合多种图像特征因此成为近年图像信息描述方面的主要趋势,近年来,计算机视觉的另一个理论框架――视觉的集成方法越来越多地受到重视。一个重要的趋势是用于识别真实世界中较为复杂的图像内容的技术,适合描述真实场景的各种特征不断得到发展。随着目前互联网络技术的不断发展,另一个值得重视的趋势是计算机图像技术与互联网技术、社交媒体技术等其它计算机技术的融合。

6结语

计算机视觉识别技术虽然是一门新兴学科。但应用前景十分广阔,对其技术的有效性、易用性、实时性及稳定性能等方面有着较高的要求。因此。其技术面临着前所未有的机遇和挑战,该领域的发展亦有过激烈的争论和反思。但是,不可否认的是,计算机视觉技术研究在许多应用领域的应用前景都是广阔的、不可估量的。

参考文献

[1]马玉真,陶立英,王新华.计算机视觉技术的应用[J].试验技术与试验机.2006(01)

[2]潘春洪,张彩霞.计算机视觉简述[J].自动化博览.2005(05)

[3]孙瑾,顾宏斌.计算机视觉系统框架结构研究[J].计算机工程与应用.2004(12)

[4]王天珍.计算机视觉研究进展[J].武汉汽车工业大学学报.1998(01)

计算机视觉的方向篇3

以下为报告详细内容:

2017年计算机视觉技术在更多的领域有所落地应用,自动驾驶领域、高考、政务等领域更多的场景开始应用计算机视觉技术。艾媒咨询分析师认为,计算机视觉行业技术是核心基础,随着技术成熟度提高,未来将有更多的场景能够应用计算机视觉技术,计算机视觉企业应在强化技术打造的前提下,发掘更多新的应用领域,提高商业落地应用。

2017年人脸识别技术在智能手机终端应用开始普及。9月苹果新品会上,iphoneX宣布引入FaceiD高精度人脸识别技术,引来人们高度关注。而除了iphoneX,华为、小米、oppo、vivo等手机厂商都推出了带人脸识别功能的智能手机。艾媒咨询分析师认为,计算机视觉领域内人脸识别功能可应用场景广泛,商业化落地能力强,除了计算机视觉创业企业,互联网巨头和硬件巨头企业也纷纷关注布局人脸识别领域。但目前人脸识别技术仍然存在一定缺陷,艾媒大数据舆情管控系统数据显示,“手机人脸识别”热词言值数据为48.5,整体舆情偏负向。现阶段人脸识别技术在智能手机终端上的应用仍处于起步发展阶段,技术和安全性仍有待提高,未来随着各计算机视觉企业加强技术研发,人脸识别技术有望进一步改善,成为智能手机标配。

iimediaResearch(艾媒咨询)数据显示,2017年中国计算机视觉市场规模为68亿元,预计2020年市场规模达到780亿元,年均复合增长率达125.5%。艾媒咨询分析师认为,人们安全和效率需求不断提升,计算机视觉技术在各行业应用能有效满足人们需求,市场发展空间巨大。国家政策对人工智能行业的支持也为计算机视觉的发展提供了有利的环境。随着计算机视觉技术日渐成熟,企业商业化落地能力不断提高,未来计算机视觉市场规模将迎来突破性发展。

iimediaResearch(艾媒咨询)数据显示,商汤科技以24.3%的企业知名度排名各计算机视觉企业首位,旷视科技与云从科技则分别以23.1%以及21.7%的知名度分列二三位。艾媒咨询分析师认为,商汤科技计算机视觉技术及算法能力在行业内较为出色,同时在安防、金融、商业、手机端等多个领域均有商业落地应用,在企业认知和品牌推广方面具有优势。

iimediaResearch(艾媒咨询)显示,61.7%的受访网民通过手机app应用接触计算机视觉应用,另外有50.9%的受访网民接触途径为通过智能手机终端。艾媒咨询分析师认为,计算机视觉企业主要服务B端用户及政府机构,相比于其他途径,移动端更适合应用计算机视觉技术的产品推广。计算机视觉技术日趋成熟,在移动终端和app上均有落地应用,也进一步为计算机视觉企业在大众中奠定基础。未来企业可通过线上渠道开发挖掘C端用户市场。

iimediaResearch(艾媒咨询)显示,半数受访网民认为智能手机及app加入人脸识别技术功能方便了二者的使用,另有48.8%的受访网民认为人脸识别技术在手机及app上的应用是未来技术发展的趋势。艾媒咨询分析师认为,人脸识别技术在手机及app端的应用满足人们智能化和便捷化的需求,随着越来越多的手机及app产品加入人脸识别功能,未来其普及和认可程度将得到进一步提高。

iimediaResearch(艾媒咨询)显示,41.8%的受访网民表示未来愿意使用人脸识别技术进行手机及app解锁,同时有41.4%的受访网民虽持观望态度,但愿意尝试。此外,47.4%的受访网民认为人脸识别将取代其他手机及app解锁技术成为未来主流。艾媒咨询分析师认为,近期智能手机纷纷应用人脸识别技术解锁推动该功能技术的普及,便捷性的优势使该功能技术前景受看好。但目前人脸识别解锁技术的准确性仍然受到质疑,随着未来技术进一步成熟,该技术有望成为智能手机设备标配。

iimediaResearch(艾媒咨询)显示,33.9%的受访网民曾使用过人证比对功能进行业务办理。在使用过该功能的人群中,54.6%认为其方便了业务办理,提供了效率,且有47.3%该部分人群认为其识别准确程度高。艾媒咨询分析师认为,政府、银行等机构业务办理效率以往常遭诟病,人证识别技术的应用提高了办事效率,在提高人们满意度的同时,加强了计算机视觉技术的认可度。未来计算机视觉技术在政府、银行等机构的落地应用将进一步扩展,但其中涉及到个人信息保护等问题需要企业及相关机构合力解决。

iimediaResearch(艾媒咨询)显示,34.1%的受访网民认为公安办案为最有必要应用人脸识别技术的安防情景。而关于网民对人脸识别技术在安防监控领域应用看法调查中,56.1%的受访网民认为其能有力保护人们人身财产安全。艾媒咨询分析师认为,计算机视觉技术,尤其是人脸识别技术在安防领域应用意义重大,在刑侦破案、身份认证、公共安全保护等情景具有重要应用价值。未来安防领域将成为计算机视觉技术重点应用领域,而安防的重要性也对相关企业技术实力有严格的要求,未来安防领域市场或由少数技术实力较强的企业占据。

商汤科技是专注计算机视觉与深度学习原创技术的人工智能创业企业,拥有强大的技术能力和人才资源储备支撑发展。商汤科技在计算机视觉领域综合实力较强,获资本方青睐,B轮融资4.1亿美元,同时与国内外知名企业展开合作。艾媒咨询分析师认为,商汤科技在商业营收上同样处于行业领先水平,但其本质专注于技术发展,强大的技术基础能较好支撑商汤科技在上层应用场景的扩展。商汤科技在技术驱动商业应用的同时,积累商业应用经验,提高企业知名度,拓展应用至更多领域。

艾媒咨询分析师认为,商业化落地能力欠缺是目前计算机视觉行业大部分企业的痛点,商汤科技在商业落地应用方面处于行业领先位置。这一方面源于商汤科技技术能力往专业化发展,以专业技术和研发基础实现场景差异化应用。另一方面,纯计算机视觉技术或算法由于其专业性,需求方在使用时需要具备专业能力,而商汤科技技术产品往标准化方向打造,打包成行业解决方案,能适应更多企业使用需求,也有利于商汤科技技术进一步落地应用。未来坚持技术为基础,继续提高商业落地能力,商汤科技有望继续保持良好发展态势。

旷视科技成立于2011年,2017年10月完成巨额C轮融资,专注于人脸识别、图像识别和深度学习技术自主研发和商业化落地,深耕于金融安全、城市安防、商业物联、工业机器人等领域,同时打造人工智能开放云平台。艾媒咨询分析师认为,旷视科技利用云平台为开发者提供技术支撑,有利于计算机视觉技术进一步结合产品运营,同时可以收集海量图片数据,通过进行深度学习,旷视科技图像识别技术又能进一步得到提升,有利于其强化自身核心技术能力。

艾媒咨询分析师认为,人脸识别技术对于金融行业业务办理及风控等流程具有重要应用价值,旷视科技在人脸识别技术上的优势也助其有效开展金融领域的服务应用。未来随着旷视科技利用云开放平台相关图片数据进行深度学习强化人脸识别技术,以及在金融领域积累的渠道资源,其有望在金融领域继续强化技术服务,成为该领域市场有力的竞争者。

艾媒咨询分析师认为,自动驾驶为人工智能和汽车行业未来发展方向,计算机视觉技术在自动驾驶汽车实现路况感知、高精度定位等方面发挥重要作用,自动驾驶为计算机视觉技术未来重要应用领域。图森未来的计算机视觉技术和算法在自动驾驶领域实现专业化发展,未来有望在此细分领域成长为领先企业。

2017-2018中国计算机视觉行业发展趋势

需求驱使计算机视觉行业发展潜力巨大应用场景拓展渗透各行业

艾媒咨询分析师认为,人们对生活安全以及生产效率追求两大需求的提升,决定计算机视觉行业具有巨大发展空间。而计算机视觉技术场景应用具有广泛性,有望发展成为下一个智能时代的标配。目前计算机视觉技术主要应用在B端领域,短期内行业发展趋势也是集中于B端领域。未来随着技术成熟,计算机视觉有望拓展更多新的应用场景,实现场景落地,渗透至各行各业,形成ai+,开拓更多C端业务。此外,计算机视觉技术可以跟其他技术,如aR、VR、无人驾驶等结合发展,创造新的应用领域。

技术应用由点及面行业解决方案及软硬件结合成商业产品出路

对于计算机视觉技术使用者来说,由于技术的学习应用需要花费较多时间和精力,硬件产品及行业解决方案往往更受青睐。未来计算机视觉企业需要将软硬件结合,如打造嵌入式芯片等。此外,计算机视觉企业应将技术应用由点及面,将技术应用发展成针对各行业的解决方案。未来市场将出现更多基于计算机视觉技术应用的行业解决方案和软硬一体化产品,只有打造方便用户使用的商业产品,才能有效适应其需求,帮助计算机视觉企业迅速占领行业市场,在市场竞争中取得领先优势。

计算机视觉行业发展对企业综合实力要求高

艾媒咨询分析师认为,计算机视觉行业巨大的发展前景决定其具有高成长性特点,未来将涌现更多人工智能领域优秀企业。但行业发展同时伴随高风险性,行业竞争需要比拼企业技术算法能力、资金能力、以及人才资源,同时考验企业能否实现技术迅速落地,对企业综合实力要求高,综合实力不具备优势的企业在行业内将难以生存。

计算机视觉的方向篇4

【关键词】精密测量计算机视觉图像关键技术

在现代城市的建设中离不开测量的运用,对于测量而言需要精确的数值来表达建筑物、地形地貌等特征及高度。在以往的测量中无法精准的进行计算及在施工中无法精准的达到设计要求。本文就计算机视觉图像精密测量进行分析,并对其关键技术做以简析。

1概论

1.1什么是计算机视觉图像精密测量

计算机视觉精密测量从定义上来讲是一种新型的、非接触性测量。它是集计算机视觉技术、图像处理技术及测量技术于一体的高精度测量技术,且将光学测量的技术融入当中。这样让它具备了快速、精准、智能等方面的优势及特性。这种测量方法在现代测量中被广泛使用。

1.2计算机视觉图像精密测量的工作原理

计算机视觉图像精密测量的工作原理类似于测量仪器中的全站仪。它们具有相同的特点及特性,主要还是通过微电脑进行快速的计算处理得到使用者需要的测量数据。其原理简单分为以下几步:

(1)对被测量物体进行图像扫描,在对图像进行扫描时需注意外借环境及光线因素,特别注意光线对于仪器扫描的影响。

(2)形成比例的原始图,在对于物体进行扫描后得到与现实原状相同的图像,在个步骤与相机的拍照原理几乎相同。

(3)提取特征,通过微电子计算机对扫描形成的原始图进行特征的提取,在设置程序后,仪器会自动进行相应特征部分的关键提取。

(4)分类整理,对图像特征进行有效的分类整理,主要对于操作人员所需求的数据进行整理分类。

(5)形成数据文件,在完成以上四个步骤后微计算机会对于整理分类出的特征进行数据分析存储。对于计算机视觉图像精密测量的工作原理就进行以上分析。

1.3主要影响

从施工测量及测绘角度分析,对于计算机视觉图像精密测量的影响在于环境的影响。其主要分为地形影响和气候影响。地形影响对于计算机视觉图像精密测量是有限的,基本对于计算机视觉图像精密测量的影响不是很大,但还是存在一定的影响。主要体现在遮挡物对于扫描成像的影响,如果扫描成像质量较差,会直接影响到对于特征物的提取及数据的准确性。还存在气候影响,气候影响的因素主要在于大风及光线影响。大风对于扫描仪器的稳定性具有一定的考验,如有稍微抖动就会出现误差不能准确的进行精密测量。光线的影响在于光照的强度上,主要还是表现在基础的成像,成像结果会直接导致数据结果的准确性。

2计算机视觉图像精密测量下的关键技术

计算机视觉图像精密测量下的关键技术主要分为以下几种:

2.1自动进行数据存储

在对计算机视觉图像精密测量的原理分析,参照计算机视觉图像精密测量的工作原理,对设备的质量要求很高,计算机视觉图像精密测量仪器主要还是通过计算机来进行数据的计算处理,如果遇到计算机系统老旧或处理数据量较大,会导致计算机系统崩溃,导致计算结果无法进行正常的存储。为了避免这种情况的发生,需要对于测量成果技术进行有效的存储。将测量数据成果存储在固定、安全的存储媒介中,保证数据的安全性。如果遇到计算机系统崩溃等无法正常运行的情况时,应及时将数据进行备份存储,快速还原数据。在对于前期测量数据再次进行测量或多次测量,系统会对于这些数据进行统一对比,如果出现多次测量结果有所出入,系统会进行提示。这样就可以避免数据存在较大的误差。

2.2减小误差概率

在进行计算机视觉图像精密测量时往往会出现误差,而导致这些误差的原因主要存在于操作人员与机器系统故障,在进行操作前操作员应对于仪器进行系统性的检查,再次使用仪器中的自检系统,保证仪器的硬件与软件的正常运行,如果硬软件出现问题会导致测量精度的误差,从而影响工作的进度。人员操作也会导致误差,人员操作的误差在某些方面来说是不可避免的。这主要是对操作人员工作的熟练程度的一种考验,主要是对于仪器的架设及观测的方式。减少人员操作中的误差,就要做好人员的技术技能培训工作。让操作人员有过硬过强的操作技术,在这些基础上再建立完善的体制制度。利用多方面进行全面控制误差。

2.3方便便携

在科学技术发展的今天我们在生活当中运用到东西逐渐在形状、外观上发生巨大的变大。近年来,对于各种仪器设备的便携性提出了很高的要求,在计算机视觉图像精密测量中对设备的外形体积要求、系统要求更为重要,其主要在于人员方便携带可在大范围及野外进行测量,不受环境等特殊情况的限制。

3计算机视觉图像精密测量发展趋势

目前我国国民经济快速发展,我们对于精密测量的要求越来越来高,特别是近年我国科技技术的快速发展及需要,很多工程及工业方面已经超出我们所能测试的范围。在这样的前景下,我们对于计算机视觉图像精密测量的发展趋势进行一个预估,其主要发展趋势有以下几方面:

3.1测量精度

在我们日常生活中,我们常用的长度单位基本在毫米级别,但在现在生活中,毫米级别已经不能满足工业方面的要求,如航天航空方面。所以提高测量精度也是计算机视觉图像精密测量发展趋势的重要方向,主要在于提高测量精度,在向微米级及纳米级别发展,同时提高成像图像方面的分辨率,进而达到我们预测的目的。

3.2图像技术

计算机的普遍对于各行各业的发展都具有时代性的意义,在计算机视觉图像精密测量中运用图像技术也是非常重要的,在提高图像处理技术做以提高。同时工程方面遥感测量的技术也是对于精密测量的一种推广。

4结束语

在科技发展的现在,测量是生活中不可缺少的一部分,测量同时也影响着我们的衣食住行,在测量技术中加入计算机视觉图像技术是对测量技术的一种革新。在融入这种技术后,我相信在未来的工业及航天事业中计算机视觉图像技g能发挥出最大限度的作用,为改变人们的生活做出杰出的贡献。

参考文献

[1]汤剑.周芳芹.杨继隆.计算机视觉图像系统的技术改造[J].机电产品开发与创新周刊,2015,14(18):33-36.

[2]马玉真.程殿彬.范文兵,计算机视觉检测技术的发展及应用研究[J].济南大学学报,2014,18(23):222-227.

[3]李华.基于计算机视觉图像精密测量的关键技术分析[J].电脑知识与技术,2013(05):1211-1212.

计算机视觉的方向篇5

关键词:无人机;捷联惯性导航系统;计算机视觉;组合导航;卡尔曼滤波

Doi:10.16640/ki.37-1222/t.2016.22.256

0引言

随着无人机技术的发展,导航系统的种类也越来越多,通常有惯性导航系统、卫星导航系统、多普勒导航系统和地形辅助导航系统等[1]。然而,单一的导航装置已难以满足当前实际应用中的飞行要求,多种形式的组合导航方案随之产生,组合方案的采用使各导航系统之间取长补短,利用组合系统提供的冗余信息可以有效提高系统的导航精度和可靠性[2]。本文针对GpS/SinS组合导航系统中GpS信号易受干扰、易丢失等缺点,提出了SinS/GpS/视觉组合导航方案,提高了系统的可靠性和导航精度,具有一定的工程实际意义。

1SinS/GpS/视觉组合导航系统方案

捷联惯导系统SinS为主导航系统,全球定位系统GpS和计算机视觉系统则作为导航辅助子系统。SinS采用姿态解算算法将memS传感器输出数据解算为需要的导航参数,GpS接收机获取的信号经由计算机转换为用户所需的机置和速度参数,而视觉系统则根据连续时刻的图像信息估计机体的姿态参数[2]。利用SinS系统误差模型、GpS量测误差模型及视觉量测误差模型构成扩展卡尔曼滤波器,两个子滤波器给出局部最优估计,再依据信息融合技术将局部估计有机合成,从而得到捷联惯导系统状态的全局最优估计。SinS/GpS/视觉组合导航结构如图1所示。

2SinS/GpS/视觉组合导航系统状态方程的建立

本系统采用的组合方式为SinS分别与GpS和视觉系统构成子组合,且都采用输出校正,因而可采用同一组状态方程。

2.1SinS姿态误差方程

理论上,SinS姿态矩阵满足微分方程

(1)

其中,表示由向量构成的反对称矩阵,且有。

而在实际中需要考虑陀螺仪的测量误差和计算误差,根据相似变换法则及反对称矩阵与向量之间的关系,可得SinS姿态误差方程为

(2)

为了使模型适用于特定的场合且便于分析,在可接受范围内认为(2)式中陀螺测量误差主要指陀螺随机常值漂移,因而可简化为

(3)

2SinS速度误差方程

理想情况下,SinS速度微分方程为:

(4)

实际系统中,基于误差的SinS速度微分方程为:

(5)

其中,,为速度计算误差;

;;;,在此只考虑主要误差源,而加速度计测量误差主要包含加速度计随机常值偏置,则有;

将式(5)与式(4)相减,忽略的影响,并略去二阶小量,可得速度误差方程:

(6)

2.3SinS位置误差方程

机体的纬度、经度变化分别是由北向速度分量和东向速度分量引起的,而高度信息则与地向速度有关[3]。由此确定的位置方程为:

(7)

由式(7)可得位置误差方程如下:

(8)

(9)

(10)

将(3)、(6)、(8)~(10)式联立即可得到SinS误差模型,即组合导航系统的状态方程。

3SinS/GpS/视觉组合导航系统量测方程的建立

SinS/GpS子系统有两组量测值,一组为位置量测值,即SinS和GpS接收机给出的位置信息的差值;另一组为速度量测值,即两个系统给出的速度差值。而SinS/视觉子系统只包含一组量测值,利用视觉图像信息估计得到的机姿信息和SinS给出的姿态角信息之间的差值作为量测值。

SinS系统的位置信息和速度信息可表达为真值与相应误差之和:

GpS全球定位系统的位置信息和速度信息可表示为真值与相应误差之差:

其中,,,分别为纬度,经度和高度的真实值;,,为GpS接收机沿北、东、地方向的位置误差;,,为GpS接收机沿北、东、地方向的速度误差。两个子系统的量测方程为:

(11)

其中,

4SinS/GpS/视觉组合导航系统仿真实验

卡尔曼滤波是实现组合导航的关键性环节。基于先前建立的状态方程和量测方程设计扩展卡尔曼滤波器,并将其作为导航系统子滤波器。同时,采用联邦滤波技术对子滤波器输出信息进行有效融合[4]。

轨迹发生器的参数选取如下:

位置参数:初始纬度、经度、高度,,,,。

姿态参数:,,,,,。

卡尔曼滤波器参数:初始位置误差5m,初始速度误差0.1m,初始平台误差角均为,陀螺白噪声漂移,加速度计零偏,GpS接收机位置误差10m,GpS接收机速度误差0.5m/s,联邦滤波器参数。

获取特征点信息的帧间图像间隔时间为150ms。SinS解算频率为50Hz,GpS接收频率为1Hz,组合频率为1Hz。

由图3~图11所示误差曲线可知,SinS/GpS系统的姿态角误差波动范围约为SinS/GpS/视觉系统的1.39倍;速度误差波动范围约为SinS/GpS/视觉系统的1.45倍;位置误差中,高度、纬度和经度误差波动范围分别为SinS/GpS/视觉系统的1.40倍、1.28倍、1.13倍,整体而言,SinS/GpS/视觉组合系统的误差波动范围减小且误差曲线整体的收敛性优于SinS/GpS系统,稳态趋向更平稳。综上所述,SinS/GpS/视觉组合系统的导航定位精度优于SinS/GpS系统。

此外,即使GpS信号丢失或受到干扰,系统仍可采用SinS/视觉组合完成导航任务,维持系统正常工作。视觉导航技术的辅助作用使得系统的可靠性增强。

5结束语

无人机众多导航系统中,SinS/GpS组合导航系统最为常见,但是,由于GpS存在信号易受干扰甚至丢失的缺点,以提高系统的精度和可靠性为目标,分别从状态方程和量测方程的建立、卡尔曼滤波算法及联邦滤波等多方面进行研究和改进,相比SinS/GpS导航系统,本文提出的SinS/GpS/视觉组合导航技术在提高定位精度和系统可靠性方面都有着显著的优势。

参考文献:

[1]魏瑞轩,李学仁.无人机系统及作战使用[m].北京:国防工业出版社,2009:23-26.

[2]万明.基于视觉导航的无人机自主着陆飞行参数估计方法[D].南京航空航天大学,2009.

计算机视觉的方向篇6

关键词计算机视觉;摄像机定标方法;应用特点;线性关系;参照物

中图分类号:tp391文献标识码:a文章编号:1671—7597(2013)022-067-3

计算机视觉中的摄像机定标方法总得来说可以分为两类——传统的摄像机定标法和摄像机自定标法。为了能够使所获取的场景更加自然,计算机视觉系统可以通过运用摄像机定标方法,加之合理安排摄像机和计算机这两种成像装置,来对二维的图像信息进行虚拟空间的三维建模,进而控制整个摄像效果。这其中摄像及内部的一些参数起到了很大的作用,最初在计算机视觉中都是采用的传统摄像机定标方法,但是这种方法存在着一定的局限性。这种定标方法在摄像机随意运动和未知场景的安排下很难进行有效的标定。随着计算机视觉中的摄像机定标方法的不断进步和发展,以及摄像机自定标方法的诞生,使得这项技术逐渐获得了相对广泛的应用。

1计算机视觉中与摄像机定标解析

计算机视觉的基本任务是采集一定数量的图片或视频资料并进行处理,以此来获得相应场景环境下的的三维信息。而这些三维信息与图像、视频对应点的相互关系需要通过摄像机的几何模型来决定,经过计算分析得出这些几何模型参数的过程即为摄像机定标。如此看来,计算机视觉与摄像机定标的关系密不可分,目前可知,计算机视觉与摄像机定标的结合已经运用到相关领域,如高速公路上的车辆自主导航,部分医学图像的处理,电脑中脸孔或指纹识别等。但是由于所使用的目标人群相对较窄,以及摄像机定标方法的相对局限,使得计算机视觉的摄像机定标无法广泛的运用到各个行业领域。正因如此,才加大了对计算机中摄像机定标方法的研究的必要性。下面就来对摄像机定标的两种方法进行简要的探讨。

2传统的摄影机定标方法及应用特点

传统的摄像机定标方法主要是在相应的摄像机模型下面,通过对一系列的数学公式进行变换计算和改进优化,然后对标定的具体参照物进行科学的图像处理,最终来获取摄像机模型的主要外部参数和内部参数。但是,由于不同的标的参照物与不同的算法思路的限制,传统的摄像机定标方法也各不相同,其大致可分为以下三种:三维型——3D立体靶标定标法、平面型——2D平面靶标定标法以及以径向约束为基准的定标法。

2.1基于3D立体靶标的摄像机定标

这种基于3D立体靶标的摄像机定标方法就是在摄像机的前面安置一个具有3D效果的立体靶标装置,然后将靶标上面的任何一个点都拿出来作为i这个参照物的特征点。在计算机视觉系统的作用下,将每一个靶标上面的特征点在整个三维坐标系中进行精确的制作测定。与此同时,摄像机首先在拍摄过程中获取靶标上面的特征点影像信息,然后对平面图像坐标系和立体空间坐标系二者的内外部数据参数排列出非线性方程,找出方程中系数矩阵的非线性关系,最后通过数学算法中的线性变换法来对整个透视系数矩阵中的每一个元素进行求解。通常在这种定标方法的应用过程中,计算机视觉系统都会忽略摄相机镜头在拍摄时的非线性畸变,将透视变幻矩阵中的相关元素定义为未知数,继而在整个定标过程确定有效的三维控制点和相应的图像点。在装置3D立体靶标后,整个摄像机定标就能够根据靶标上特征点的图像坐标和世界坐标,在数学变幻算法的应用下,计算出摄像机的内部参数和外部参数。

这种3D立体靶标的摄像机定标方法不仅能够优化定标物的获取方法,而且能够适应程序功能的改进,并且较高的精度,因而得到了广泛的应用,但是这种定标方法通常比较繁琐。

2.2基于2D平面靶标的摄像机定标

基于2D平面靶标的摄像机定标方法在传统摄像机定标方法分类中属于一种新型的定标方法,又名张正友定标法。这种定标法具有灵活适用的特点,也是对传统摄像机定标方法的一种简化。在定标过程中首先是要在两个以上的不同方位对一个平面靶标进行摄相机拍摄,整个拍摄过程中2D平面靶标和摄相机镜头都能够自由地进行移动,而且要保持整个摄像机的内部参数一直固定。通常在基于2D平面靶标的摄像机定标法的应用中,我们都需要先假定这个靶标在三维空间坐标系中的竖轴为0,然后为了求出摄像机内外参数的优化解,要建立相应的线性模型,通过对线性模型的线性分析来计算出优化解,最后,运用最大似然法排列参数之间的非线性关系来求出其非线性解。在整个定标流程中,必须对摄像机的镜头畸变的目标函数进行综合考虑,才能够计算出摄像机的外部和内部参数。

这种方法既具有较高的精确性,又不需要很昂贵的定标成本,因此在计算机视觉系统中很为实用。但是,这种方法在进行整个摄像机内外参数的线性分析时,因为特征图像上面的直线在透视之后依然是直线,在进行图像处理的过程中,会引入一定的误差。因此,在很多具有广角镜头的摄像机定标上会出现因为镜头畸变而引起的较大误差。

2.3基于径向约束的摄像机定标

基于径向约束的摄像机定标就是通常所说的两步法标定方法。这种方法通常是先利用径向一致约束对超定性的线性方程进行最小二乘法求解,这样就能够将除了摄像机光轴方向平移外的其他的摄像机参数,然后对摄相机镜头存在和不存在透镜畸变的情况下分别进行其他摄像机参数的求解。这种方法的计算量较为适中,而且精度也比较高,适用于摄像机的精密测量。然而,两步法对于整个定标设备的要求也高,对于简单的摄像机标定而言不易采用。

总的来说,基于径向约束的摄像机定标的精准是通过设备的复杂和精确来获得的,因此具有针对性的应用特点。

3摄像机自定标方法及其应用特点

摄像机自定标方法是指在摄像机在移动时,周围环境中的图像会形成一定的对应关系,通过这种对应关系来对摄像机进行定标的方法,这种方法无需依赖参照物。摄像机自定标方法主要有以下四种:基于主动视觉的自定标法、基于Kruppa方程的自定标方法、分层逐步定标法以及基于二次曲面的自定标方法等。这些方法相较于传统的摄像机定标方法来说有了很大的改进和提高,下面就进行简要的探讨。

3.1基于主动视觉的自定标法

目前,在摄像机自定标方法中的应用最为普遍的方法便是基于主动视觉的自定标法。这种方法主要是能够通过对摄像机在移动过程中的对环境中的多幅图像进行标定,进而建立对应关系来求出标定参数,由此可见,整个标定过程不需要精密的标定物,如此一来就能够使得标定问题简单化。主动视觉系统是这种标定方法的核心技术,就是摄像机在拍摄过程中被固定在了一个能够得到精确控制的移动平台上,并且这个平台的相关参数能够通过计算机进行精确的读出,在整个拍摄过程中摄像机只需要通过一定的特殊运动来获取多幅图像信息,然后在结合摄像机运动的具体参数和图像的参数来确定整个摄像机的内部和外部参数,达到摄像机定标的效果。其中基于主动视觉的自定标法的代表方法就是马颂德提出的控制摄像机的两组三正交平移运动的标定方法。后来,李华、杨长江等人对这种方法进行了改进和优化,提出了基于四组平面正交和五组平面正交运动的标定方法,并能够利用获取图像中的机电信息来对摄像机的参数进行线性表定。

这种方法算法简便,能够获得整个参数的线性解,但是这种方法对整个摄像机的运动平台要求很高,因此要求必须具有精确控制的能力。

3.2基于Kruppa方程的自定标方法

基于Kruppa方程的自定标方法主要是在整个摄像机自定标过程中导入了Kruppa方程,并对该方程进行直接求解,从而得到整个摄像机的具体参数的方法。基于Kruppa方程的自定标方法在应用时利用了极线变幻和二次曲线像的概念对Kruppa进行推导,直接进行求解。

这种标定方法不需要对整个图像的序列进行射影重建,通常是对两个图像之间的信息建立一个方程,相较于逐步分层标定方法而言,基于Kruppa方程的自定标方法能够将某些很难做到所有图像整合到一个统一的射影框架中的情况更加具有优势,但是这种方法还是存在着一定的局限性,它无法保证在无穷远处的平面能够保持所有图像在确定的摄影平面中还具有一致性的效果。当整个摄像机拍摄的图像的序列较长的时候,基于Kruppa方程的自定标方法就显得很不稳定,继而不能够很好地算出整个摄像机的内外参数,对定标造成了一定的影响。

3.3分层逐步定标法

分层逐步定标法是摄像机自定标方法中的一个研究热点,在摄像机自定标的实际应用中以及逐步取代了可以直接求解的基于Kruppa方程的自定标方法。分层逐步定标法在应用过程中首先需要对整个拍摄的图像序列进行摄影重建,这点和基于Kruppa方程的自定标方法一样,然后利用绝对二次曲面加以约束,最后在确定出无穷远处平面方程中的仿射参数以及摄像机内部的参数。分层逐步定标法的应用特点是必须建立在射影定标的基础之上,利用某一幅图形作为特征基准点进行射影对其,将整个摄像机自定标的未知数的数量减少,再运用数学算法中的非线性优化算法来进行未知数的求解。

这种方法的不知自出就是在进行非线性优化算法时,初值是通过事前的预估得到的,不能够保证这个方程的收敛性。由于在射影重建时,选择的基准图像不同,整个摄像机自定标的结果也会存在差异。

3.4基于二次曲面的自定标方法

基于二次曲面的自定标方法和基于Kruppa方程的自定标方法在本质上答题一致,这两种方法都是利用了绝对二次曲面在欧式变幻算法的计算下维持的不变性进行的。最早将二次曲面的概念引入到计算机视觉系统中摄像机自定标方法的是triggs,他在这种定标方法上作出了可行性的研究,最后形成了基于二次曲面的自定标方法。

在输入了多幅的图像并且在进行统一的射影重建的状态下,基于二次曲面的自定标方法会比基于Kruppa方程的自定标方法更加适用一些,原因就是基于二次曲面的自定标方法包含了绝对二次曲面和无穷远处平面的所有信息,进而能够办证整个图像在无穷远处平面的一致性。

4传统摄像机定标方法与自定标方法优缺点分析

从上文可知,对于传统摄像机定标方法应该取其精华,去其糟粕;对于摄像机自定标方法,在吸取传统摄像机定标方法的优点的同时,应该加强自身的精度要求。总而言之,两种摄像机定标方法各自存在利弊,如何改进才是正确的研究方向。

4.1传统的摄像机定标方法弊端

传统的摄像机定标方法通过实践证明,在理论上和实际运用上十分有用的,但仍有不少地方需要进一步改进,以下为它目前存在的问题所在:1)摄像机所拍摄的图像或视频存在一定噪声。在实际数据计算分析中,这种噪音无论大小,都会对内部参数的实际解造成大的干扰,并且使实际解与由约束关系所求得的解之间有着相当大的差异。因此,怎样才能够提高解的鲁棒性、减少解之间的差异性成为了传统摄像机定标亟待解决的1问题;2)线性模型所得的优化解并非全局的。由上可知,摄像机定标的实际过程便是获得实际参数的过程,即使用各种不同的优化计算方法,来获得相应的非线性方程的一组解,但实际上,以此所获得的优化解并非全局的。因此,如何变化或者提高线性方程的解答方法也很重要;3)摄像机定标参数的不确定性。一般来讲,摄像机定标参数的不确定性决定着计算参数的可信程度,同时,其对三维重建有着影响,进一步来讲,摄像机定标的不确定性也决定着约束关系的不确定性传播。因此,这个问题也需要深入进一步研究。

总之,传统摄像机的定标方法依然存在着许多无法忽视的弊端和需要解决的问题,深入研究并尽快解决这些问题,应该是传统摄像机的定标方法今后的大的研究方向。

4.2摄像机自定标方法相关问题

目前普遍认为,摄像机自定标方法实现随时随地的校准摄像机模型参数,与传统的摄像机定标方法相比显得更为灵活先进。摄像机自定标方法无需参照物,仅仅从图像或视频的相关点中得到它们之间的约束关系,从而通过相应的分析,计算出摄像机模型的参数.这种定标方法看似毫无缺点,但自定标的精度与传统的摄像机定标方法相比,还是存在者一定的缺点,以下便是对其缺点的归纳总结:部分摄像机自定标方法所求得的解不够稳定。例如:在图像或视频存在一定噪声的情况下,实际的解与理论的解有着相当差异,或者所求得的解并不唯一。因此,解的不稳定性和精度不够的情况,不仅是传统摄像机定标方法的缺点,也是自定标方法的一个问题,提高解的精度及稳定性,是自定标研究的一个重要方向。实际上,在现在的解决方案中,各种优化算法是最常用最普遍的方法,但是,在多解的情况下,优化算法也无法能够保证得出全局的最优解。由此看来,这个问题是计算机是绝种摄像机定标方法普遍存在的关键性问题。

5结束语

随着计算机视觉系统的不断发展,摄像机定标技术也呈现了进步的状态。综上所述,计算机视觉中的摄像机定标方法主要有传统的摄像机定标法和摄像机自定标法,对这两类的定标方法进行深入的研究能够为全面认识和了解摄像机定标方法起到很好的帮助作用。计算机视觉中的摄像机定标方法在今后的发展过程中应该得到更多的研究,但其所存在的不足和弊端也理应得到研究人员的重视。在这个多元化信息化的世界里,计算机视觉中的摄像机定标技术若能够根据现有的条件,适应如今的环境,选择合适的方法,对一些还存在局限性的环节取得更好地突破,则能够将整个定标技术提升一个高度。相信随着未来计算机视觉系统的不断扩展和不断完善,摄像机定标技术的应用范围也会越来越广阔。

参考文献

[1]宋雪峰,杨明,王宏.用于摄像机标定的网格状纹理的检测方法[a].2001年中国智能自动化会议论文集(下册)[C].2001.

[2]谭跃钢,吴正平.一种新的基于双目视模型的三维重建方法[a].中国仪器仪表学会第三届青年学术会议论文集(上)[C].2001.

[3]刘健勤,鲍光淑.面向数据采掘的自适应图象分割技术[a].中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C].1998.

[4]洪俊田,陶剑锋,李刚,桂预风,徐晓英.基于灰色关联的数字图像去噪研究[J].武汉理工大学学报(交通科学与工程版),2006,04.

[5]赵江涛,周仁斌,刘宝源.基于线结构激光三维扫描系统的摄像机标定方法研究[a].2010振动与噪声测试峰会论文集[C].2010.

[6]王鹏,王红平.基于网格图像的双线性插值畸变校正的方法研究[a].科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C].2008.

[7]程建璞,项辉宇,于修洪.基于openCV的视觉测量技术中摄像机标定方法[J].北京工商大学学报(自然科学版),2010,01.

[8]赵越,江南.一种基于3D矩形靶标的摄像机标定算法及其实现[a].第九届全国信息获取与处理学术会议论文集Ⅰ[C].2011.

计算机视觉的方向篇7

基金项目:陕西省自然科学研究计划项目(2010JK740;2010Jm8019);西安理工大学学科联合研究项目(102-210914)。

作者简介:吕林涛(1955-),男,陕西西安人,教授,主要研究方向:网络与信息安全、数据挖掘;赵呈轩(1982-),男,河南新乡人,硕士研究生,主要研究方向:网络与信息安全;尚进(1984-),男,河南郑州人,硕士研究生,主要研究方向:网络与信息安全;杨宇祥(1974-),男,湖南湘潭人,副教授,博士,主要研究方向:生物医学信号检测与处理。

文章编号:1001-9081(2011)07-1847-03doi:10.3724/Sp.J.1087.2011.01847

(1.西安理工大学计算机科学与工程学院,西安710048;2.西安理工大学机械与精密仪器工程学院,西安710048)

()

摘要:针对目前色情图像过滤算法对比基尼图像和类肤色图像误检率过高,且不能有效过滤带有动作的多人色情图像的缺点,提出一种基于高层语义视觉词袋的色情图像过滤模型。该模型首先通过改进的SURF算法提取色情场景局部特征点,然后融合视觉单词的上下文和空间相关高层语义特征,从而构建色情图像的高层语义词典。实验结果表明,该模型检测带有动作的多人色情图像准确率可达87.6%,明显高于现有的视觉词袋色情图像过滤算法。

关键词:色情图像;过滤;图像高层语义;语义树;视觉词袋;鲁棒特征加速

中图分类号:tp393.08;tn911.73文献标志码:a

pornographicimagesfilteringmodelbasedon

high-levelsemanticbag-of-visual-words

LaLin-tao1,ZHaoCheng-xuan1,SHanGJin1,YanGYu-xiang2

(1.SchoolofComputerScienceandengineering,Xi'anUniversityoftechnology,Xi'anShaanxi710048,China;

2.Schoolofmechanicalandprecisioninstrumentengineering,Xi'anUniversityoftechnology,Xi'anShaanxi710048,China)

abstract:Currentpornographicimagesfilteringalgorithmshavesomeshortcomings,suchashighfalsepositiveratetowardthebikinisimagesandinsufficiencywhenfilteringpornographicimageswithpornographicactions.thepaperproposedanewpornographicimagefilteringmodelbasedonHigh-levelSemanticBag-of-Visual-words(BoVw).Firstly,localfeaturepointsinsexsceneweredetectedusingtheSpeeded-UpRobustFeatures(SURF)algorithmandthenhigh-levelsemanticdictionarywasconstructedbyfusingthecontextofthevisualvocabulariesandspatial-relatedhigh-levelsemanticfeaturesofpornographicimages.theexperimentalresultsshowthatthemodelhasanaccuracyupto87.6%whentestingthemulti-personpornographicimages,whichissignificantlyhigherthantheexistingpornographicimagesfilteringalgorithmbasedonBoVw.

Keywords:pornographicimage;filtering;imagehigh-levelsemantics;semantictree;Bag-of-Visual-words(BoVw);Speeded-UpRobustFeatures(SURF)

0引言

快速有效地监测和过滤网络色情信息已经成为网络信息安全中的一项重要研究课题。现存的色情图像过滤技术虽然对网络上明显的图像可以实现较好的过滤效果,但不能有效过滤带有动作的多人色情图像,并且对含有比基尼的正常图像误检率较高。

随着视觉词袋(Bag-of-Visual-words,BoVw)算法在图像检索和场景分类领域的成功应用[1-2],2008年thomsDeselaers等人[3]首次提出采用视觉词袋算法提取图像高层特征过滤色情图像,该算法大大提高了色情图像的识别效率,但忽略了肤色特征。2009年anap.B.Lopes等人[4-5]在此基础上加入色调信息提出了HUe-SiFt特征描述算子,采用固定词汇大小分配,最后使用基于支持向量机(SupportVectormachine,SVm)分类算法进行色情图像的分类。但该算法对词袋算法本身缺乏优化,算法需要付出昂贵的计算时间。2009年YiZHiLiU等人[6]提出了构建SURF(Speeded-UpRobustFeatures)视觉词汇的方法来提取肤色区域的局部特征算子以减少SiFt算法的计算时间[7],虽然SURF的计算效率较SiFt算法有较大提高,但是视觉词汇聚类过程中采用简单的K-mean聚类算法,造成语义缺失。2009年王宇石等人[8-9]采用视觉单词和语义映射算法检测色情图像,该算法虽然采用了语义映射模式,但是未能对高层语义视觉词组进行提取,因此算法仍存在一定的局限性。

针对目前色情图像过滤算法误检率过高等问题,本文提出一种基于高层语义视觉词袋的色情图像过滤模型。该模型在传统低层视觉特征基础上,利用语义分析和理解相关技术,提取图像中包含的高层语义特征,从语义层面来识别不良图像,不仅符合机器视觉认知过程,而且可有效弥补现有算法比基尼图像误检率过高、不能有效过滤带有动作的不良图像过滤技术的不足。实验证明,算法可以有效过滤带有动作的多人不良图像,较同类算法识别率高,误检率低。

1高层语义视觉词袋的色情图像过滤模型

本文提出的基于高层语义视觉词袋的色情图像过滤模型如图1所示。该模型主要包括特征提取、高层语义词典构建和分类器构建三部分。

1)特征提取采用文献[6]中的SURF(4×4)算法提取局部特征;

2)高层语义词典构建通过随机森林算法[1]将提取的视觉基元的进行分类产生底层视觉词汇,并将中级词汇再次分类、融合上下文关系和空间相关特征[10-12],最终构建具有高区分度的高层语义视觉词典;

3)分类器采用文献[1]中的χ2-kernelSVm分类算法。

图1高层语义视觉词袋的色情图像过滤模型

2高层语义词典构建算法

高层语义词典构建算法主要通过视觉基元分类和视觉单词分类两阶段完成。视觉基元分类算法主要由随机森林算法和消除干扰词算法完成;视觉单词分类主要由上下文相关视觉词汇分配算法和空间相关视觉词汇分配算法完成。最终完成高层语义视觉词典的构建。高层语义词典构建算法流程如图2所示。

图2高层语义词典构建算法流程

2.1空间相关视觉词汇的权重分配算法

色情图像最明显的特点是有大面积的肤色区域和敏感器官的暴露,视觉词汇在分配的过程中如果对色情图像空间相关的视觉词汇加权分配,可以有效识别敏感区域和和提高视觉词汇的区分度。本文采用对色情图像空间相关的视觉词汇加权分配[10]。算法描述如下:

1)从兴趣点集合提取出的视觉词汇集合wl(1

2)计算视觉词汇wl在高斯βi条件下加权频率tfwlβi,tfwlβi∑nim1p(βi/Zm);

3)计算视觉词汇wl的平均权重tfwl,tfwl∑nwli1(tfwlβi)/nwl;

4)计算wl的权重ifwl,ifwlln;

5)计算视觉词汇wl最终空间权重Swwl,Swwltfwl×ifwl。

2.2人体器官特征的空间拓扑结构算法

传统的视觉词袋算法通过编码局部突出片段的视觉基元获取视觉单词,但是却忽略了图像对象间的空间拓扑结构,本文将利用人体器官特征的空间拓扑结构表达的三角关系提取色情图像高区分度特征。经研究发现,人体器官特征本身具有一定的空间拓扑结构,利用人体器官特征的这一特点可以准确判定图像是否含有人体躯干部位。对于图像中包含单人的色情图像身体倾斜度不大于90°,人体暴露的胸部特征和人脸特征基本成三角形状,如图3所示。

图3色情图像人体器官特征空间拓扑结构

本文采用简化2D字符串[11]构建高层语义视觉词汇间的空间拓扑结构,假设V是人体器官特征对象集合,集合内每一个对象对应一个高层视觉词组,本文用“

2.3多人色情图像高层语义树构建算法

对于包含多人的色情图像,除具有大面积的肤色区域信息,更重要的是包含一些特定的动作,主要有亲吻、拥抱以及躯体部位的粘合。亲吻主要涉及嘴部和其他敏感器官,拥抱主要涉及肢体,躯体粘合主要涉及人体躯干和敏感器官。上述三种行为语义基本构成多人色情图像中的行为语义特征,色情图像高层语义树构建过程如图4所示。

图4色情图像高层语义树构建过程

在图4中,语义模型包括:人体器官对象模型和人体相关行为模型。由于色情图像相关的语义词汇中有些词汇出现的概率较高,因此,本文在文献[12]提出的加权分配语义词汇算法基础上,去除场景语义模型,只对人体器官对象视觉词组和人体行为相关视觉词组加权分配。对于数据集合V中任意一张图像Ci,如果人体器官对象视觉词组概率为po,人体行为相关视觉词组概率为pa,可以通过公式pCiαpo+βpa,α+β1,计算Ci的敏感系数。当敏感系数大于阈值t时判定此图为色情图像。

3实验结果分析比对

为了验证高层语义视觉特征在色情图像过滤中的效果,本文通过采用网络收集的色情图像和pascalVoC2010图像库正常图像作为训练和测试数据集合,并与本领域著名文献[4,6,9]中方法完成实验结果对比。

3.1实验采样数据集

实验图像来自网络和pascalVoC2010图像库,其中在网络上收集的色情图像5800张,可以分为a类:包含明显的图像;B类包含比基尼图像;C类:包含带有动作的多人色情图像;正常图像5000张均取自pascalVoC2010图像库。

训练数据集和测试数据集分别为3000和5560张图像,从三类色情图像中各随机取出1500张进行训练,另外手工标注了2000张色情图像的人体躯干和敏感区域(性器官),用来产生各类低层视觉语义单词。

3.2实验结果比对

本文采用随机森林算法从1932900个关键点中分类产生了7883个SURF视觉单词,并根据词汇的上下文关系和空间相关特征进行再次分类,产生5120个中级视觉词组,同时将中级词组分为2150个人体器官相关和2980个人体动作相关的高层语义词汇。最后对高层语义词汇编码形成色情图像高层语义词典。

由于色情图像中包含大面积的肤色区域和人体敏感器官,此类局部特征点具有明显的上下文相关和空间相关特性。表1结果表明:加入上下文相关和空间相关特性的视觉词汇分配算法的特征区分度要明显高于传统视觉词汇分配算法;三类图像的过滤正确率本文算法均高于其他算法。视觉词袋算法的时间复杂度主要取决于特征提取和视觉词汇分配算法的时间复杂度,本文采用文献[1]中的随机森林算法对视觉词汇进行分配,缩短了视觉词汇分配的计算时间。实验结果表明,在特征提取和词汇分配两个阶段的总计算时间,本文算法的平均计算时间均低于其他三类算法。四类算法特征提取和词汇分配平均计算时间比对如图5所示。

表1四类色情图像过滤算法正确率对比

%

4结语

基于视觉词袋的色情图像检测是一种很有前景的方法,因为通过理解图像表达的高层语义对色情图像进行过滤不仅可以过滤明显的图像和多人色情图像,而且也符合机器视觉和认知理论。本文用具有高区分度的高层语义特征进行分类检测速度和准确度都较现有算法有较大提高,但在过滤90°侧身的色情图像检测方面有待进一步研究。

图5四类过滤算法特征提取和词汇分配平均计算时间对比

参考文献:

[1]UiJLinGSJRR,SmeULDeRSawH,SCHaRJH.Real-timevisualconceptclassification[J].ieeetransactionsonmultimedia,2010,12(7):665-681.

[2]wULei,HoiSCH,YUnenGHai.Semantics-preservingbag-of-wordsmodelsandapplications[J].ieeetransactionsonimageprocessing,2010,19(7):1908-1920.

[3]DeSeLaeRSt,pimeniDiSL,nRYH.Bag-of-visual-wordsmodelsforimageclassificationandfiltering[C]//iCpR2008:19thinternationalConferenceonpatternRecognition.washington,DC:ieeeComputerSociety,2008:1-4.

[4]LopeSapB,deaViLaSeF,peiXotoana,etal.abag-of-featuresapproachbasedonHUe-SiFtdescriptorfornudedetection[C]//eUSipCo2009:proceedingsofthe17theuropeanSignalprocessingConference.Glasgow,Scotland:mendeley,2009:1552-1556.

[5]LopeSapB,deaViLaSeF,peiXotoana,etal.nudedetectioninvideousingbag-of-visual-features[C]//SiBGRapi'09:proceedingsofthe2009XXiiBrazilianSymposiumonComputerGraphicsandimageprocessing.washington,DC:ieeeComputerSociety,2009:224-231.

[6]LiUYiZHi,XieHonGtao.ConstructingSURFvisual-wordsforpornographicimagesdetection[C]//iCCit'09:12thinternationalConferenceonComputersandinformationtechnology.washington,DC:ieee,2009:404-407.

[7]LUoJUan,Gwono.acomparisonofSiFt,pCa-SiFtandSURF[J].internationalJournalofimageprocessing,2009,3(4):143-152.

[8]王宇石,李远宁,高文.基于局部视觉单词分布的像检测[J].北京理工大学学报,2008,28(5):410-413.

[9]王宇石,高文.基于视觉单词和语义映射的色情图像检测算法[J].高技术通讯,2009,19(10):1041-1047.

[10]LitenG,meitao,Kweoni,etal.Contextualbag-of-wordsforvisualcategorization[J].ieeetransactionsonCircuitsandSystemsforVideotechnology,2010,21(4):381-392.

计算机视觉的方向篇8

关键词:视觉艺术网络虚拟现实

艺术活动反应时代的现象,且在各种意义上,艺术与时代革新或改造的根本精神,有着密切的关系。在艺术创作的过程中,感情的自发形成占了大部分,但在有些状态下理性的计划性成分亦占有相当的比例,尤其在新媒体、新美学观念、新素材及新的科学技术高度发展的今天,以理性为诉求的创作灵感,已占有绝对的重要性及审美价值。

科技的革新,从计算机、网络到虚拟现实,在艺术创作上产生极大的变化,具有实验精神的先驱艺术家们热衷于新媒体与材料与新艺术形式的探求,从十九世纪末到今天,其中发生了难以计数的艺术运动,一部新媒体艺术史,几乎就是一部近代科技史,而我们仍然活在其中,变化日新月异,很难去归纳风格,或下任何定论。到目前为止,网络艺术、包括虚拟实境的交互式装置,似乎是互动艺术的主流。科学的发明与发现,大量地运用在改善人类生活上,不过是近五十年的事,却带给人类前所未有的便捷与刺激。改变的不仅是物质的层面,在精神上的意义也相当深远。

尤其是60年代末70年代初,当电子媒体与计算机科技开始普及之时,媒体深深影响我们对世界的认知,人们视野变宽了,世界变小了。当时,艺术、科技与科学间的关系常受争议。艺术与科技运动吸引许多艺术家、科学家、工程师以及业者参与,意图发展出跨领域的合作架构,然而时至今日,这种系统化的合作模式,仍然只是一个理想。因为科技、艺术都是文化有机整体的一部分,原本就不容分割。

运用科技的视觉艺术,一个明显的议题便是科技带来的艺术品复制性与真实性的问题,一切展演都只是以复制品呈现,要观赏者破除原有的观赏习惯,在传统上的艺术价值包含了独创性、唯一性、与真实性,都将被重新思考。

数字化科技成熟后,讲求光与速度,去物质化的虚拟影像透过媒体四处传播,复制已经不再是模仿、替代真实或是真实的幻觉,数字世界已然成为另外一种真实。因为影像可被转换为数字语言,可被任意操弄,因而影像成为一种信息,于是艺术行为也大大不同于前,艺术家在庞杂的影像信息中,选择、过滤、重新组装,不只是利用技术来解决视觉问题,开发新的视觉经验,更利用新媒体去呈现人们生活中的种种困境,作品意义的产生存在于事件的脉络还有与观赏者的互动中。观赏者从最早的被

动接受,到目前已然成为参与者,甚而是展演内容的提供者。以往视觉艺术的形式,可大分为平面的绘画与立体的雕刻,而影像的领域今后将与前述二者并列为视觉艺术的重要形式之一。未来随着计算机图像处理,多媒体、高画质等新媒体技术的高度发展,传统的录像技术也将面临新的整合。

十九世纪八十年代以后高科技产品发展迅速,计算机、雷射光线、传真机、复印机、卫星传播等。这些尖端科学技术,都成为创造想象和架构的创作工具,这些新的媒介能仿真真实世界,也能创造出幻想境界中的奇景。高科技艺术是十九世纪八十年代以后,兴起于美国的新艺术。它是泛指以运用高科技创造的现代美术作品,诸如计算机艺术、雷射光艺术等作品,在美学领域中带来明显意义,结合了人类智能和科技产生的大量新颖技巧。潜藏在这种深具潜力的新视觉技巧下,有一个更深入的意义:在高科技的辅助下,视野更加瞭阔,并为艺术创作,提供了新的美学向度,跳跃连结代替线性思考,多向度空间取代绘画透视,前所未有互动。尤其是,自从计算机出现以后,因为可以储存、修改,容易重新绘制及复制,所有有关绘画的行为起了很大的改变。1952年美国的BenF.Laposky利用计算机做出一个抽象的图像,1956年才开始能创作出彩色的电子影像,1960年德国K.alsleben及w.Fetter发表最早的计算机绘图作品,直至1994年网际网络开始盛行,四、五十年间,人们对于空间的思考模式随之改变,我们离开了复杂而趋向一个快速沟通、大纲式了解的理想。我们不再需要画一堆很复杂辅助线去处理放置一个三维物体于二维平面上的问题,计算机影像帮我们解决了这些问题。因此,艺术家已把兴趣放在如何避免复杂的建构,因为人们想象的空间已经改变,波浪的、拥挤的西方绘画已被纯粹的、无限空间的现代绘画所取代。

计算机对现代艺术造成的冲击及影响之巨,超乎想象。计算机一般被认为是一个空间可视化的简单辅助工具,但它不只是一件工具,一种媒体和材料,更重要的是一种新的美学方向,新的再现可能。多数计算机艺术的创作者,深信虽然计算机本来不是为艺术创作的理由而发明,但它会持续发展出特有的本质,继续为艺术家提供最好的工作伙伴。

通常,计算机比传统铅笔的方式更简单、便宜、快速地生产,计算机让艺术家与音乐创作者更快速的生产,这也就是我为什们称之为“罐头艺术”的原因,然后,计算机也可提供一种艺术替代品更快速的方法,这也是我为什么称其为“麦当劳艺术”。当然,计算机艺术有它的隐忧。虽然计算机为艺术带来发展的新契机,却也有不少令人不安的地方。

第一:由于计算机也是科技的产物,自然有现代和传统的冲突,如何把过去的传统艺术,配合新的计算机媒材,加以融合表现出来,呈现附合时代的新风貌而被接受,是值的深思的问题。因为全世界都是用相同的软件和设备,如果一窝蜂的跟着主流,则艺术创作则会划地自限,而显露大量复制和类似的肤浅平面感,失去艺术的美感和深度。第二:如同前面提到的,工具的方便,却造成个人风格的丧失,并且

失去敏锐度,因为一旦创作者习于依赖计算机的修改功能,创作的动力则渐渐退去,例如:惯用pHotoSHop的摄影者很可能因此,不在意拍照的决定性时刻,因为可以透过计算机仿真修改,不怕拍不好,但即使效果逼真,却失去艺术价值了。

计算机视觉的方向篇9

关键词:智能车;寻迹;aVR单片机;光电传感器

中图分类号:tp242文献标识码:B

文章编号:1004-373X(2009)01-190-02

DesignandRealizationofintelligenttracingVehicleBasedontheVision

Biweiwei1,ZHanGXuefeng2,CHaiRui2

(1.ShandongtransportVocationalCollege,weifang,261206,China;

2.automobileinstitute,Chang′anUniversity,Xi′an,710064,China)

abstract:intelligentvehiclesplayanimportantroleinfutureintelligenttransportsystems,intelligenttracingvehiclesareelectromechanicaldevicesbasedonthevision.intheviewofindependenttracingproblemsbasedonanavigationlineinthefutureintelligenttransportsystems,intelligentvehiclebasedonaVRmicrocontrollerisdesigned.intelligenttracingvehiclescanmoveautomaticlyandaccuratelyintheconditionofuncertaintyofturningradiusbasedonvision.

Keywords:intelligentvehicle;tracing;aVRSCm;photoelectricsensor

0引言

智能运输系统是未来交通运输系统发展的趋势,智能汽车在智能运输系统中扮演着十分重要的角色。作者提出智能寻迹车作为构建未来智能交通运输系统中重要部分,针对未来交通运输系统有导航线的环境命题假设下智能汽车的自主寻迹问题[1],提出一种基于视觉的智能寻迹车模设计方案,作为该假设问题的解决方案。

基于视觉的智能寻迹车模设计方案能够在线型复杂,转弯半径不确定性大的情况下,利用视觉自主寻迹前进,分级精确转向。

1系统总体设计

基于视觉的智能寻迹车模系统以aVR单片机meGa16为核心,由单片机模块、路径识别模块、直流电机驱动模块、舵机驱动模块等组成,如图1所示。

图1系统框图

直流电动机为车辆的驱动装置,转向电动机用于控制车辆行驶方向。智能寻迹车模利用视觉在跑道上自主寻迹前进,分级精确转向。道路为318mm宽白色底板,其中间粘贴18mm宽且线型不断变化的黑胶带。

2硬件设计

2.1控制模块

寻迹车模采用aVR内核的atmeGa16。该芯片能够不需要晶振和复位电路而独立工作,非常适合智能寻迹车模的要求[2,3]。控制器模块安装在广东奥迪玩具实业有限公司生产的雷速登1∶24比赛级遥控车模上。

2.2路径识别模块

采用反射式光电传感器来区分跑道上的黑色与白色,反射式光电传感器有光线发射端和光线接收端,白底与黑线对发射端发出光线的反射度不同,从而影响接收端产生的电压[4]。用反射式光电传感器、可调电阻和运算放大器Lm

2.3转向电机和驱动电机驱动模块

采用H桥电路来驱动智能寻迹车的前轮转向电机和后轮驱动电机,实现智能寻迹车左右转向、前进、后退、加速、减速等功能。转向电机驱动电路如图3所示。其中前轮转向电机控制方案为分级转向控制,后轮驱动电机控制方案亦为开环控制。

图2传感器模块原理

图3转向电机驱动及分级转向电路

2.4分级转向模块

为了实现在不同的转弯半径处实现不同角度的精确转向,设计了分级转向电路,如图3所示。车模舵机中可变电阻阻值为1.8~4.2kΩ,1接单片机a/D管脚。电压V为片内稳定基准电压,且可以看出:

V3+4.2≤V1≤V3+1.8

以1号传感器为例,说明分级转向角度计算。

传感器模块安装如图4所示,所有尺寸经过前期设计计算,D点为前轮舵机可调电阻转向中心,a点为小车转向中心。当1号传感器检测到黑线时,前轮转向角度以及与前轮转向角度对应的前轮舵机中可变电阻转向角度计算为:

α1=arctanBC1BD

β1=arctanBC1aB

图4分级转向角度计算示意图

V3值线性正比于前轮舵机中可变电阻角度α1,因此,不同的传感器探测位置,可以计算得出不同的理想前轮转向角度,不同的理想转向a/D电压,通过单片机测量V3,即可换算前轮舵机中可变电阻转向角度α1,并与理想转向a/D电压比较,当V3达到理想转向a/D电压,单片机控制给舵机低电平,舵机停转,保持转向,从而实现精确分级转向。

3软件设计

3.1主程序设计

采用C语言在iCC-aVR开发环境下进行编程调试[5,6]。主程序流程图如图5所示。

图5主程序流程图

3.2分级模块程序设计

atmeGa16能对来自端口a的8路单端输入电压进行采样[7]。当片中aDC多功能寄存器aDmUX的ReFS1和ReFS0设置为1时,VaReF=2.56V,为片内稳定基准电压源,即图3中电压V。智能寻迹车转向极限为±30°,表1为5个光电传感器分级精确转向相应计算数据。

表1分级精确转向计算数据(i=1,2,3,4,5)

传感器编号BaBDBCiβiαiVa/D电压值

4结语

基于视觉的智能寻迹车模设计方案能够在线型复杂,转弯半径不确定性大的情况下,利用视觉自主寻迹前进,分级精确转向。对于环境光线的影响,可考虑增加滤波电路、优化控制算法增加其抗干扰能力。实验证明,该方案有良好的寻迹效果。

参考文献

[1]吕国芳,黄林智,徐鸣.一种机器人的寻迹算法[J].微计算机信息,2007,23(1Z):269-270.

[2]atmelCorporation.8-bitaVRmicrocontrollerwith16KBytesin-SystemprogrammableFlash[R].Rev.2466p-aVR-08/07,2007

[3]祁伟,杨亭.单片机C51程序设计教程与实验[m].北京:北京航空航天大学出版社,2006.

[4]沈猛,徐德民,李俊,等.轮式移动机器人组合导航方法及试验研究[J].计算机仿真,2005,22(7):85-87,152.

[5]马潮.aVR单片机嵌入式系统原理与应用实践[m].北京:北京航空航天大学出版社,2007.

[6]周俊杰.嵌入式C编程与aVR[m].北京:北京航空航天大学出版社,2003.

[7]张克彦.aVR单片机实用程序设计[m].北京:北京航空航天大学出版社,2004.

计算机视觉的方向篇10

在立体视觉中,视差间接反映物体的深度信息,视差计算是深度计算的基础。常见的视差计算方法研究都是面向双目立体视觉,而双焦单目立体视觉的视差分布不同于双目视差,具有沿极线辐射的特点。针对双焦单目立体视觉的特点,提出了一种单目立体视差的计算方法。对于计算到的初步视差图,把视差点分类为匹配计算点和误匹配点。通过均值偏移向量(meanShift)算法,实现了对误匹配点依赖于匹配点和图像分割的视差估计,最终得到致密准确的视差图。实验证明,这种方法可以通过双焦立体图像对高效地获得场景的视差图。

ス丶词:

立体视差;双焦单目立体;视差图;图像分割;meanShift算法

ブ型挤掷嗪牛tp391.41

文献标志码:a

英文标题

extractingdisparitymapfrombifocalmonocularstereovisioninanovelway

び⑽淖髡呙

XUShushu1,wanGYuanqing1,ZHanGZhaoyang2

び⑽牡刂(

1.SchoolofelectronicScienceandengineering,nanjingUniversity,nanjingJiangsu210093,China;

2.SchoolofComminicationandinformationengineering,ShanghaiUniversity,Shanghai200072,China

英文摘要

)

abstract:

Disparityisakeypointinstereovisionasitshowsthedepthinformationofthesceneindirectly,anddisparitycalculationisthebasisofthedepthcalculation.thetraditionaldisparitycalculationmethodsarealltargetedatbinocularstereo.However,comparedwithdisparityinbinocular,thedisparityinmonocularstereoisradialalongepipolarline.Concerningthecharacteristicsofbifocalmonocularstereovision,anapproachtogetdisparitymapfrombifocalimageswasproposedinthispaper.preliminarydepthmapwasobtainedbymatchingcostcalculated.ByusingmeanShiftalgorithm,discontinuitiesandmisunderstandingsinprimarydepthmapweresmoothedandeliminatedaccordingtothematchedpointsandgraphcutresult.theexperimentalresultsshowthatthismethodcangetdisparitymapefficientlyfrompairsofbifocalimages.

英文关键词

Keywords:

stereodisparity;bifocalmonocularstereo;disparitymap;graphcut;meanShiftalgorithm

0引言

视差最初在人类视觉系统中是用来描述相关特征在左右眼中位置不同的程度。在现代立体视觉系统中,视差是非常重要的物理量,间接地反映了深度信息,是联系二维图像和三维空间的桥梁。双目立体视觉中,立体视差是同一点投影到左右平面的矢量差,当左右成像相机光轴平行时,视差严格反映成水平视差。视差的估计过程就是在对应立体图像对中寻找匹配对的过程,立体视差估计关键在立体匹配算法。立体匹配可以分为特征匹配[1]和稠密匹配[2]两大类。特征匹配通过提取图像中的点、线、面特征或者相位特征等作为匹配基元,计算立体图像对的相关性得到稀疏的视差数据。稠密匹配对每个像素都计算对应点的左右图位置,得到稠密的视差结果。相对于特征匹配,稠密匹配不需要特征提取和特征描述步骤,算法简单,但是计算量大。目前有很多研究集中于双目立体视觉视差的获得,Scharstein等人[3]对这些方法做了分类和评估。

除了双目立体视觉,近年来,单目立体成像系统由于体积小、定点观察等特点,越来越多地被采用。Saxena等人[4]采用一系列单目图像及其真实深度图为信息,用机器学习的方法训练马尔可夫场函数,以预测单目图像中的视差分布。本文采用单目双焦摄影系统,获得单目立体图像对。不同于双目立体视觉中水平视差的特点,单目双焦立体视觉中视差的表现为成像点关于成像中心的位移。本文针对于单目视觉的这个“辐射”特点,提出了一种新的不依赖于先验知识的视差估计方法。

1单目立体视觉特点

单目双焦立体视觉系统中,通过变焦方式来获得物点的深度信息。实际摄像系统的光学图如图1所示,它由两个双焦距成像透镜lens1和lens2组成。f1和f2是成像系统的两个透镜的焦距;o1、o2分别是两个透镜的光学中心,它们距离为L。物点距离透镜2的物距为Z,距离光轴距离为R,r1和r2是分别是两成像点在双焦图片对中离图像中心的距离。オ

图片

图1

实际摄像系统光学图[5-6]

物点的深度的计算公式如下:

r1f1=RL+Z

r2f2=RZ;

Z=f2×Lr2r1×f1-f2В1)

r2r1=f2f1+LZ×f2f1=(1+LZ)f2f1В2)

式(1)是双焦单目立体中深度计算公式。从式(2)中可以看到,像点在两幅双焦图片中离图像中心的距离r1和r2的比值与系统光学参数L、系统双焦距f1、f2以及像点深度有关。双目立体视觉中,深度信息反映为像点在立体图对中的水平视差,类似地在单目双焦立体视觉系统中,物体深度信息反映为像点距离光学中心的径向位移缩放,随着Z的增大而减小。本文将像点在双焦单目的图片中投影的径向长度之比作为像点的视差值,即d=r2/r1。

图2中:p、Q为空间中的两个物点,oo′是两双焦透镜成像光学中心连线,o1和o2是双焦图像对的成像中心,p、Q像点通过两透镜成的像分别为p1、p2和Q1、Q2。把双焦图像对的中心记成oc,由于双焦立体图像对的视差径向辐射特性,像点p2在ocp1的延长线上,Q2在ocQ1的延长线上。单目双焦立体视觉中,把ocp1叫做p点的极线,ocQ1叫做Q点的极线。

图片

图2

双焦单目成像示意图

与双目立体视觉系统一样,单目双焦立体系统的极线,是由物点、两透镜光心组成的平面与成像平面相交行程的直线。单目双焦立体的极线约束条件表现为:物点在双焦图像对中的像点必定落在极线上,并且两点与图像中心连线的距离之比与物点深度有关,深度越大,比值越小,即单目双焦视差越小。オ

┑2期

徐姝姝等:新的单目立体视觉的视差图的获得方法

┆扑慊应用┑31卷

2单目视差估计算法

根据单目双焦立体图像对的视差特点,可以将小焦距图像围绕图像中心以比例序列缩放映射,计算对应像素点处的相似性,将最相似时图像的缩放比作为该点的视差。

2.1相似判定策略

判断点匹配的方法有计算区域相关性[7]等,本文的算法中采用SSD(SumofSquaredDifference)来判断点匹配程度。

ssd(x,y)=∑i=x+σi=x-σ∑j=y+σj=y-σF1(i,j)-F2(i,j)(3)

式(3)是SSD的计算公式,F1(i,j)和F2(i,j)是焦距f1和f2下图片在点(i,j)的像素值。SSD计算的是点Вx,y)窗口区域内像素值差的总和,与区域相关算法(CrossCorrelation)[8]相比,SSD算法对于图像的亮度变化更为敏感;但是能克服对于相似纹理区域的误判决,计算快速。为了克服SSD对于亮度噪声的敏感,对其做改进,将方向梯度的偏差加入代价函数:オ

ssdg(x,y)=∑i=x+σi=x-σ∑j=y+σj=y-σFg1(i,j)-Fg2(i,j)(4)

Fg1(i,j)、Fg2(i,j)分别是焦距f1和f2下图像在点(i,j)处的梯度值(可以用Sobel算子等计算梯度)。Иssdg(x,y)Ъ扑懔舜翱谀谔荻炔钪和。将像素绝对差之和与梯度差之和结合,构造新的相似性度量函数为:

SSD(x,y)=ssd(x,y)+w×ssdg(x,y)(5)

其中w是权重系数,实验中取w=5。新的相似性度量函数不仅计算量小,而且能克服亮度噪声的影响。オ

2.2匹配点与误匹配点判决

相似性判断对于图像对中纹理丰富区域的点可以匹配,判断结果良好;但是对于图像平滑渐变区域,往往通过相似性匹配找到的对应点是假匹配点,所以要对相似判决后匹配点对作分类。

в伤焦单目视差公式(式(2))可以看到,双焦立体图片对像点关系有r2>r1,将f1焦距下的图像围绕光学中心按倍率序列放大,得到放大图像序列。计算f2焦距下成像结果中每个像素点与放大序列中相应位置点的相似度差异,取相似度差异最小的放大倍率为该点的视差值,各像素点初步视差值形成初步视差图disp1;类似在f2焦距下将图像序列的缩小,计算像素的相似度差异,将各像素点差异最小处的缩小倍率倒数作为各点视差值,得到初步视差图disp2,对两幅视差结果优化得到初始视差结果。

对于视差图中的点(i,j),如果存在|disp1(i,j)-disp2(i,j)|t(其中d为视差容错极限,t是判断该点纹理性的阈值),那么标记该点为已匹配,(i,j)的视差为min(disp1(i,j),disp2(i,j));否则标记为误匹配点。オ

2.3用meanShift算法对初步视差图滤波

对于初步视差图中的误匹配点,可以借助meanShift算法,纠正错误匹配点对,生成致密连续的视差图。

meanShift算法由Fukunaga和Hostetler在1975年提出,当时作为概率密度梯度估计的一种方法。直到1995年Cheng[9]对meanShift算法做出了推广,提出了核函数并引入权系数,把算法用于计算机视觉领域,meanShift算法才得到了广泛关注,现在已经被广泛应用到图像分割、平滑以及特征分析等方面。

m(x)=∑s∈SK(s-x)s∑s∈SK(s-x)(6)

其中:S是采样点集;K是一个核函数;m(x)-x就是点x处的meanShift向量,计算过程就是点x向S点集的质心的移动过程。将m(x)替代x反复迭代,直至m(x)=x。x,m(x),m(m(x))…是点x的meanShift轨迹,最终点xа刈弄meanShift轨迹趋向于附近采样点决定的中心。

常用的核函数有均匀核函数:

K(x)=1,x≤λ0,x>λ(7)

和高斯核函数:

K(x)=ex2(8)

把均匀核函数和高斯核函数结合:

K(x)=e-x2,x≤λ0,x>λВ9)

meanShift算法在致密视差生成中有两个重要作用,即图像分割和视差滤波估计。

1)图像分割。

对于复杂场景的双焦图像对,通过meanShift运算迭代的方法可以获得比形态学方法(分水岭算法等)更为理想的图像分割结果。这样,在估计误匹配点视差值时,基于同一图像区域的已匹配点的视差,避免了由于场景物体间跨度的阶跃视差带来的估计误差。

图像分割时,首先选择合适的核函数对图像进行meanShift运算;记录各像素最终收敛点的位置,对各点按照收敛结果分类;最后,对分割成的各类合并归纳,得到最终的图像分割结果。

2)视差滤波估计。

在图像分割区域内,误匹配点的视差可以由已匹配点的概率密度梯度估计得到。将误匹配点周围的各点的视差作为meanShift运算的输入,误匹配点的视差由输入视差迭代运算估计得到,是周围点视差决定的质心值。

2.4算法流程

1)将双焦图像围绕图像中心缩放,计算对应像素的相似性函数,取最大相似性,得到初步的视差图对。

2)对视差图对中的点分类出已匹配点和误匹配点,得到视差图。

3)meanShift算法对图像分割。

4)对标记的误匹配点基于图像分割区域和区域内匹配点视差滤波,得到真实视差结果。

3实验结果

由于双焦单目视觉系统的光学结构的特殊性,利用3DSmaX模拟拍摄系统。采用本文的视差估计算法,对3DSmaX下拍摄[10]的双焦单目立体对生成的近距和远距图像对分别计算视差图。

图3是3DSmaX下拍摄双焦图像对视差估计的实验结果。在3DSmaX模拟双焦单目的拍摄条件,拍摄场景最远处距离相机Z┆max=3@m。

图3(a)是近距拍摄的双焦图1,┩3(b)是L=0.5@m时拍摄的双焦图2,图3(c)是未经过meanShift滤波前的初步视差图,由于假匹配,存在若干视差不连续点,图3(e)是对近距图像1采用meanShift方法得到的图像分割结果。再在图像分割与匹配点视差的基础上经过滤波后,图3(c)为做视差估计的误匹配点,得到场景的基本完整连续的致密视差图(图3(e))。

图4是3DSmaX下拍摄双焦图像对视差估计的实验结果。拍摄场景最远距离相机Z┆max=90@m。图4(a)是双焦单目图1,图4(b)是L=2.5@m时双焦图像2,图4(c)是未经过meanShift滤波前的初步视差图,图4(e)是双焦图1采用meanShift方法得到的图像分割结果,图4(e)是最终得到的视差图。图4(c)中屋顶大片平滑区域难以估计的视差值通过滤波估计,在图4(e)中生成了连续可靠的视差图。

从图3和图4可以看到,本文的视差估计方法对于近距和远距的双焦单目图像对都能计算得到致密真实的视差图,能够克服纹理匮乏区域视差值难以估计的缺点。

图片

图3

近距双焦单目立体图对视差计算结果

图片

图4

远距双焦单目立体图对视差计算结果

4结语

本文结合单目双焦立体视觉的特点在传统立体视差计算的基础上,提出了一种适合单目双焦立体图像对的快速视差估计方法。基于双焦单目图像对视差沿着极线方向径向辐射的特点,采用缩放序列的双焦图像计算对应点的相似度的方法得到初步视差图。算法中将改进的SSD作为相似度判定,有效地提高了算法计算速度和抗噪能力。此外,meanShift算法在深度图修正和致密化上有重要作用,它既被用于图像分割也被用于视差图的滤波。通过点匹配情况分类判断和滤波,有效避免了立体图像中平滑区域相似误匹配率高,深度难以估计的情况。

通过3DSmaX模拟拍摄实验,在近距和远距情况下调整系统参数拍摄双焦单目立体图像对,计算结果都证明本算法能够有效地获得场景的致密深度图。单目双焦系统视差图的估计计算对于后续基于双焦图像对的三维场景恢复等研究有重要的意义。

参考文献:

[1]

陈棣湘,罗飞路,潘孟春.立体视觉测量中的图像匹配策略研究[J].光学技术,2002,28(5):392-394.

[2]

CRiminiSia,SHottonJ.efficientdensestereoandnovelviewsynthesisforgazemanipulationinonetooneteleconferencing[R].microsoft,2003.

[3]

SCHaRSteinD,SZeLiSKiR.ataxonomyandevaluationofdensetwoframestereocorrespondencealgorithms[J].internationalJournalofComputerVision,2002,47(1/2/3):7-42.

[4]

SaXenaa,SUnm,nGaY.make3D:Learning3Dscenestructurefromasinglestillimage[J].ieeetransactionsonpatternanalysisandmachineintelligence,2009,31(5):824-840

[5]

ZHenGDan,wanGYUanQinG.Depthmeasurementbasedonbifocusimaging[C]//2ndinternationalCongressonimageandSignalprocessing.washington,DC:ieeeComputerSociety,2009:1-5.

[6]

王元庆.双焦距立体视觉中的光学成像模型[J].光学技术,2007,33(6):935-936.

[7]

GaRCiama,VintimiLLaBX,SappaaD.efficientapproximationofgrayscaleimagesthroughboundederrortriangularmeshes[C]//ieeeinternationalConferenceonimageprocessing.washington,DC:ieeeComputerSociety,1999:168-170.

[8]

刘莹,曹剑中,许朝晖.基于灰度相关的图像匹配算法的改进[J].光学技术,2007,28(5):536-540.

[9]

CHenGYiZonG.meanshift,modeseeking,andclustering[J].ieeetransactionsonpatternanalysisandmachineintelligence,1995,17(8):790-799.