首页范文大全计算机视觉的基本任务十篇计算机视觉的基本任务十篇

计算机视觉的基本任务十篇

发布时间:2024-04-26 02:02:03

计算机视觉的基本任务篇1

关键词:计算机图形图像设计;视觉传达设计;关系研究

中图分类号:tp391.41

将计算机技术应用到图形图像设计领域发起于上世纪80年代的欧美国家,并且随着计算机科技的快速发展,电脑制图对许多人来说不再是一件新鲜事,计算机制图技术得到广泛普及与应用[1]。正所谓“过犹不及”,长时间以来人们过度关注计算机制图技术,甚至完全将其当做一种工具,从而导致图形图像设计基本原则被忽视,致使计算机设计的图形图像缺乏艺术创新型,难以满足人类的视觉要求[2]。对此,相关学者开始尝试将计算机图形设计与视觉传达设计结合起来,并取得显著成效。本文即在此背景下展开研究,具体结果如下:

1基本概念分析

要想了解计算机图像图形设计与视觉传达设计之间的关系,我们需要了解两者的基本概念,具体如下:

1.1计算机图形图像设计的概念

所谓计算机图形图像设计,顾名思义,是指利用计算机技术设计制作图形图像的过程。计算机图形图像技术是随计算机技术发展而兴起的新技术,相比于传统的图形图像设计工作,它极大的解放了设计家的双手,有效减少了设计家双手的劳动,促使其有更多的时间和精力思考新的创意灵感。

另外,相比于手工制图,计算机软件更为精密,同时设计软件所提供的色彩、线条更为丰富,从而使制图者有更多选择余地。同时,相比于传统制图,计算机制图不需要长时间的美术基础训练,并且随着技术的发展,操作更加简单,适合初学者使用。

1.2视觉传达设计

1.2.1传达。在分析视觉传达设计前,我们需要先搞清楚什么是传达?传达是事物之间的一种共通现象,广泛存在于人类、自然界生物、机械等事物之间[3]。相比于其他事物之间的传达,人类之间的传达需要借助各种符号,因此我们可以将人类传达分为语言传达与非语言传达[4]。

语言传达,顾名思义,是指人类通过语言符号传递信息的现象,由于语言是人类最开始也是最常用的沟通方式,因此常被人类用来传达抽象概念。非语言传达是指语言传达之外的人类所采用的传达信息的方式,非语言传达主要通过视觉与听觉传递信息,而其中涉及范围最广的是视觉传达。

1.2.2视觉传达设计。视觉传达设计是指需要通过视觉传达各种信息的设计。例如:人们通过视觉观察绘画作品的大小、形状、色泽等可以得到作者想要表达的信息,并且画家通过改变以上因素就可以传达出不同的信息。视觉传达设计的内容为:各种标志、文字、图形以及符号等;传达媒体为:电视、广播、杂志、报纸以及网络平台等;传达面向的群体为:社会中不同身份的受众。

2计算机图形图像设计与视觉传达设计的异同点分析

2.1两者不同点分析

虽然有关计算机图形图像设计与视觉传达设计结合的研究方兴未艾,但是从根本上来说,两者之间存在较多的不同点。我们只有准确把握两者的差距,才能够更好的将两者融合起来。总结来看,两者之间的不同点主要存在于历史背景、设计任务、培训方法、创作方法等几个方面。

2.1.1两者的历史背景不同。如前文所说,计算机图形图像设计是随着计算机技术的发展而兴起的,因此该技术形成并兴起于上世纪末与本世纪初。而且进入新世纪后,随着计算机运行速度、存储容量、结构以及网络通信的完善,计算机图形图形设计进入了全新的发展时期,基本实现了与打印机、多媒体、绘图仪等设备的组合使用,从而使得计算机图形图像设计的范围得到拓展,逐渐从二维领域进入到三维领域。

相比于计算机图形图像设计,视觉传达设计的出现较早,其形成于上世纪40年代,第二次世界大战之后。此时人类社会迎来一个发展的新高峰,商品经济流通速度越来越快、流通范围越来越广。尤其是广告业的快速发展使得绘画与广告紧密的结合在一起,从而改变了传统的传达方法,使得视觉传达方式在人类社会中的地位越来越重要。此时,人类对视觉传达的需要促使了视觉传达设计的兴起与发展。

2.1.2两者设计任务不同。从设计作品的特性来看,计算机图形图像设计的作品主要是立体的、三维的以及动态的,因此其设计任务就是将原本的平面、二维、静止等作品转变成为立体、三维、动态作品。

而视觉传达设计的作品主要是通过视觉传达向受众传递作者想要表达的信息,因此作品的形式并不固定,只要能准确表达信息即可。因此,视觉传达设计的任务主要是树立形象、传递思想、说服受众,同时视觉传达设计还肩负着传递艺术美感的任务。

2.1.3两者培训方法不同。计算机图形图像设计是依靠计算机技术进行的工作,因此初学者掌握相关的计算机软件技术十分必要。因此,图形图像设计的培训方法主要是训练初学者了解并熟练使用计算机平面图形软件、三维软件,掌握排版印刷、视频编辑等技术。另外,训练初学者掌握一定的作品设计知识也是图形图像设计的主要任务。

由于世界传达设计的主要任务是向受众传达信息、传递美感,因此视觉传达设计工作需要用到广告学、美术学、传播学、设计学等多种知识。因此,在对初学者进行视觉传达设计培训时,要想初学者灌输工艺美术史、广告通论、设计史等学科的理论知识[5];同时,还要训练出初学者掌握广告设计、产品包装、装帧等必要技能。

2.1.4两者创作方法不同。计算机图形图像设计的创作主要依赖于各种设计软件,因此设计师在创作时只要能够熟练掌握各种软件技术,合理搭配形体与色彩、装饰与视觉美、静与动、立体与空间,就能创作出一幅比较完美的作品。

视觉传达设计的创作还比较倾向于美术作品创作,因此在创作时设计师首先要从绘画技法的角度调整点、线、面、色彩、光线、形体等方面的关系,从而准确将自身思想融入到作品中,进而实现形和意、象征与象的结合。

2.2两者的相同点分析

计算机图形图像设计与视觉传达设计最主要的共同点是:两者都属于艺术作品。因此,从这一角度来说,两者之间存在重叠的共同领域,例如:两者的教育培训都设计到了平面设计、色彩、素面等专业知识。

同时,两者都是运用文化符号与受众进行沟通并传递信息;并且,两种作品的设计都需要设计师进行创新思考,都必须要充满创意;另外,两者在进行创作时都需要考虑美术作品创作的各种要素以及创作原则。

3结束语

计算机图形图像设计与视觉传达设计的结合是未来的发展潮流,符合21实际的发展要求,能够充分体现计算机技术与艺术的完美结合[6]。而在分析两者基本概念的基础上,对两者的异同点进行探讨,可以为两者的应用结合提供理论参考,进而更好的推动二者的发展。

参考文献:

[1]张金龙.计算机图形图像设计与视觉传达设计研究[J].吉林广播电视大学学报,2013(01):117-118.

[2]袁志翔.计算机图形图像设计与视觉传达设计探微[J].现代装饰(理论),2013(02):173.

[3]邵玉兰,赵昕.关于计算机图形图像设计与视觉传达设计的分析[J].信息与电脑(理论版),2013(03):45-46.

[4]范丽萍.计算机图形图像设计与视觉传达设计[J].电脑编程技巧与维护,2012(04):83-84.

[5]龚良彩.计算机图形图像设计与视觉传达设计[J].计算机光盘软件与应用,2012(10):181.

计算机视觉的基本任务篇2

【关键词】发展性阅读障碍;儿童;视觉加工能力;病例对照研究

doi:10.3969/j.issn.1000-6729.2009.03.016

中图分类号:R749.94,B842.2文献标识码:a文章编号:1000-6729(2009)003-0213-04

越来越多的研究发现,汉字字形无论是对词汇通达进程、神经机制参与或是对阅读能力发展的影响都不同于拼音文字字形。近几年来,西方表音文字国家相关研究认为,虽然以语音为中介的加工是词汇通达的主要通路;但是视觉认知障碍逐渐成为发展性阅读障碍不可忽视的因素,其主要的理论依据是视觉大细胞缺陷假设[1]。而在汉语阅读过程中,大多数情况下,语义通达基本上受字形约束,而不是像英文那样受语音约束。在语言学习的神经机制的研究中也发现参与汉字加工的大脑神经区域不同于拼音文字加工。另外,不同语言阅读能力的纵向发展研究发现,对于国外表音文字儿童而言,语音意识可有效预测其阅读能力;而对以汉语为母语的儿童的研究却发现,视觉加工能力与其阅读水平有更强的相关性,换句话说,汉语儿童的视觉加工相对于语音意识更能预测其汉语阅读能力。汉语发展性阅读障碍在基本视觉信息加工过程中是否存在缺陷,是否涉及高级的认知加工障碍,目前仍存在分歧[2]。关于视觉认知障碍在汉语阅读障碍中的作用、地位的研究还较少,且研究结论莫衷一是,仍需进一步研究探索。本研究根据汉字特点,考察汉语阅读障碍儿童图形视觉辨识能力和汉字视觉辨识能力,探索汉语阅读障碍儿童图形和汉字的视觉加工特点,为进一步研究儿童汉语阅读障碍的神经机制奠定理论基础,并为阅读障碍儿童的治疗、矫治提供依据。

1对象和方法

1.1对象

采用简单随机抽样的方法,在武汉市随机抽取3所普通小学,在每所小学3~5年级采取整群抽样的方法,抽取900名学生,得到有效问卷820份。入组标准:智力>70,视力(矫正视力)>1.0,均为右利手,无明显躯体、神经及其他心理疾病,既往无脑外伤史,监护人知情同意。

阅读障碍组:儿童心理学专业人员依据iCD-10规定的定义和CCmD-3中“特定阅读障碍”诊断标准,结合病史、临床观察和学业情况综合评定。共筛查出阅读障碍儿童55名,其中53人参加了本实验,男生42人,女生11人,平均年龄9.9岁。入组标准:①学习障碍筛查量表教师用表[3]总分70;⑤排除视听觉障碍,排除多动症及器质性脑病。

正常对照组:按1∶1的比例选择同班级、同性别、年龄相差小于半岁(±6个月)、家庭经济状况相似的正常儿童为对照组。男生42人,女生11人,平均年龄为10.0岁。

所有受试均被告之实验的性能,并给出书面同意。全部实验合乎伦理道德。为避免学习影响,所有受试者均为初试,此前没有参加过类似实验。两组儿童年龄差异无显著性意义(p>0.05),阅读障碍组的智商低于对照组[(106.30±13.65)vs.(117.53±13.63),p

1.2实验方法

1.2.1实验任务和材料

1.2.1.1图形视觉辨识任务

结合本研究的目的,根据瑞文标准推理测验(Raven'sStandardprogressivematricestest,R'Spm)[6]、本顿视觉形状辨别测试(theVisualFormDiscriminationtest,VFD)[7]以及加德纳视觉认知技巧测试(Gardner'stestofVisualperceptualSkills,G'VpS)[8]自行设计图形视觉辨识材料。图形视觉辨识任务的测试材料共有46个(23对)图形,其中3对图形为练习用,20对图形为正式测试用。正式测试用图形包括10个简单图形和10个复杂组合图形(3个或3个以上简单图形组合)。每对图形测试包括刺激图形和目标图形,刺激和目标或者完全一致(无论黑些、小些、大些、颠倒位置,只要图形一致就判断为一致)或者不同(细微的差别,需要精细的视觉辨别才能发现)。正式测试的图形对由计算机随机给出。所有图形都利用photoshop绘图工具绘制。线条粗细规格一致,均为黑白色。

1.2.1.2汉字视觉辨识任务

选取的汉字出自现代汉语词典(商务印书馆,2004),汉字为笔画数从6~17画的生僻字。为了确保实验材料均为受试未接触过的字,实验前,先就选出的50对汉字,咨询普通小学的语文教师,并选择了20位不参加该实验的普通学校六年级语文成绩优秀的儿童,要求他们剔除了认识的汉字,最后剔除4对汉字,随机选择其中35对作为测试材料,其中5对作为练习,30对为正式测验。正式测验用的30对汉字有15对是一致(刺激与目标汉字完全一致),15对是不一致(刺激与目标汉字非常相似,有共同的字根,但有细微差别)。正式测试的汉字对由计算机随机给出。

1.2.2实验程序与步骤

为了避免顺序效应,一半受试先做图形视觉辨识任务,然后做汉字视觉辨识任务。另一半受试则按相反的顺序进行实验。

视觉加工任务,由专业人员使用VisualC++语言编程,采用人机对话方式完成。实验材料在计算机彩色显示器(600×400像素)正中间顺序呈现,受试位于据屏幕60cm处。实验开始后,首先呈现“+”2000ms,要求受试者的双眼盯着屏幕中央的“+”,充分放松。接着空屏500ms,开始呈现刺激a,1000ms后,空屏500ms,然后自动呈现刺激B(即每个刺激显示1000ms,Soa=500ms)。受试看到刺激B后在电脑上选择“相同”或“不同”。受试必须在8000ms之内作出反应,否则算错。作出判断后或超过8000ms会自动跳到下一题。

本实验在具体操作时分成三个阶段,第一为学习阶段,选取几对正式测试未出现的图形(汉字)判断材料,让受试充分熟悉实验程序,确保充分理解测试。第二为练习阶段,用C语言程序按照上述方式依次呈现3次练习材料,练习材料的呈现方式与正式实验完全相同,以帮助受试熟悉实验程序,确保充分理解任务的要求,主试根据受试练习情况进行指导,使其尽快适应实验要求。第三阶段为正式实验,要求受试判断依次出现的刺激对是否相同,计算机记录下受试的反应时和错误率,主试对受试的反应情况进行详细观察记录。

1.3统计方法

进行t检验和方差分析。显著性水平以双侧p

2结果

2.1两组儿童视觉辨识任务正确率比较

首先对受试因素(阅读障碍组,正常对照组)和任务因素(图形视觉辨识任务和汉字视觉辨识任务)进行方差分析。结果显示,受试因素主效应以及受试因素与任务因素之间的交互效应均无统计学意义(F=2.545、0.888,均p>0.05)。

表1显示:两组儿童视觉加工任务正确率差异均无统计学意义(p>0.05)。

2.2两组儿童视觉辨识任务平均反应时比较

首先对受试因素(阅读障碍组,正常对照组)和任务因素(图形视觉辨识任务和汉字视觉辨识任务)进行方差分析。结果显示,受试因素主效应以及受试因素与任务因素之间的交互效应均无统计学意义(F=4.166、0.024,均p>0.05)。

表2显示:两组儿童图形视觉辨识的平均反应时差异无统计学意义(p>0.05),而汉字视觉辨识的平均反应时边缘显著,阅读障碍儿童汉字视觉辨识平均反应时有长于正常儿童的趋势(p=0.073)。

3讨论

汉语发展性阅读障碍在基本视觉信息加工过程中是否存在缺陷,是否涉及高级的认知加工障碍,目前仍存在分歧[2],且研究结论莫衷一是。国内张承芬[9]利用视觉-空间删除测验、图形记忆测验、以及视觉注意测验研究表明:图形记忆和加工能力上的缺损,是汉语学习困难的主要认知特征。孟祥芝等研究发现,一致性运动测验的成绩与字形相似性判断之间有着显著相关,表明视觉运动知觉对汉字字形分析识别过程有着显著影响[10]。但张丽娜等的个案研究表明,阅读障碍个案在“视觉辨认、视觉记忆,以及视动统合任务上”都没有困难,说明阅读障碍个案读写困难确实不是因为视觉加工能力落后而造成的[11]。张明、隋洁等人的研究证明,学习障碍儿童在视觉-空间工作记忆上存在缺陷[12];程灶火等的研究表明,虽然障碍儿童的视通道的成绩比正常儿童差,但在统计上并未达到显著差异[13]。本研究根据汉字的特点,利用图形视觉辨别任务和汉字视觉辨识任务探讨阅读障碍儿童视知觉辨别能力特点。如果视知觉能力是影响阅读能力的可能原因,则在视知觉能力表现应是正常儿童组显著优于阅读障碍组。可是,本研究结果显示,虽然阅读障碍儿童无论在图形视觉辨别任务还是在汉字视觉辨识任务中的正确率均有低于正常儿童组的趋势,反应时间均有长于正常儿童组的趋势,但差异均未达到统计学意义。提示视觉加工能力是否是汉字阅读障碍的核心机制还需要进一步的研究,今后可加大样本量进一步探索。

本研究采用视觉辨识任务对阅读障碍儿童视觉加工能力做了初步探索,视觉辨识任务需要儿童多方面的视觉加工能力,如:精细的视觉辨认能力,视觉记忆能力,视觉空间扫描能力,究竟这些能力如何影响和在多大程度上影响阅读能力,仍有待进一步研究。

参考文献

[1]SteinJ.themagnocellulartheoryofDevelopmentalDyslexia[J].Dyslexia,2001(7):12-36.

[2]周晓林,孟祥芝.中文发展性阅读障碍研究[J].应用心理学,2001,7(1):25-30.

[3]静进,森永良子,海燕,等.学习障碍筛查量表的修订与评价[J].中华儿童保健杂志,1998,6(3):197-200.

[4]吴汉荣,宋然然,姚彬.儿童汉语阅读障碍量表的初步编制[J].中国学校卫生,2006,27(3):189-1901.

[5]吴汉荣,宋然然,姚彬.儿童汉语阅读障碍量表的信度效度分析[J].中国学校卫生,2006,27(6):468-469.

[6]张厚粲.瑞文标准推理测验手册[m].北京:北京师范大学出版社,1985,1-60.

[7]Lezakm.neuropsychologicalassessments[m].2nded.oxfordUniversitypress,1983.

[8]GardnermF.testofVisual-perceptualSkills(non-motor)-Revised[m].Hydesville,Ca:psychologicalandeducationalpublications,1996.

[9]张承芬.汉语阅读困难儿童认知特征研究[J].心理学报,1998,30(1):50-54.

[10]孟祥芝,周晓林,曾飚.动态视觉加工与儿童汉字阅读[J].心理学,2002,34(1):16-22.

[11]张丽娜,刘翔平,吴洪培,等.汉字听写障碍儿童形音联结个案研究[J].中国心理卫生杂志,2006,20(12):832-835.

[12]张明,隋洁,方伟军.学习困难学生视空间工作记忆提取能力的多指标分析[J].心理科学,2002,25(5):565-568.

计算机视觉的基本任务篇3

关键词:非物质;设计;科学;艺术

中图分类号:J05文献标识码:a文章编号:1005-5312(2013)33-0172-01

1995年3月在安徒生的故乡丹麦召开了主题为:“精神高于物质――有限物质时代下的非物质设计”的国际工业设计学术会议,这也是第一次提及所谓“非物质”的概念。

依据马克・第亚尼《非物质社会》对非物质设计的定义,即:“非物质设计”是社会非物质化的产物,是以信息设计为主的设计,是基于服务的设计。在信息社会,社会生产、经济、文化的各个层面都发生了重大变化,这些变化,反映了从一个基于制造和生产物质产品的社会向一个基于服务的经济性社会(以非物质产品为主)的转变。

随着十八世纪末社会工业化的到来,1919年包豪斯设计学院在德国的成立将欧洲现代主义设计推到一个新的高度;美国工业设计的兴起对现代设计起到了至关重要的推动作用;现今非物质设计已经开始成为后现代设计的的重要表述形式。设计的实施也在从以手工业为中心的活动,到非物质的信息化设计;从产品功能性的设计到基于人基于服务的设计;从物质的产品设计到非物质的虚拟设计。从“物”到“非物”。

“非物质设计”是依据“物质设计”得来的,是“信息的设计”,非物质设计是依据物质设计而来的,非物质设计离不开物质的体现,例如我们在进行某一产品设计时,产品本身是物质的,设计前的产品构思和讨论以及产品环境的选择及分析都属于非物质的,例如某些高校出现的租凭自行车的服务满足了学生的需要,自行车本身是物质的,租凭行为的设计是非物质的。这些种种的设计活动是基于人、基于服务的设计,也正是非物质设计所要表达的宗旨――以人为本。非物质的视觉传达设计同样要追溯于人,追溯于环境,从有形走向无形,由“物”走向“非物”。

现在视觉传达设计的非物质体现是多方面的。

1、设计软件在视觉传达设计中的非物质体现。

信息如何快速、大量、准确、有效的传递,这离不开计算机的准确性和传递信息的速度性,设计师设计思路的实施和扩展离不开计算机制图软件的应用,计算机本身是物质的,但信息的数字化传输和设计软件是非物质的。可以说计算机在非物质设计中起着重要的作用。

制图软件推陈出新速度很快,给设计师提出新的设计要求,同时也间接的对制图软件的革新起到了推动作用,一些手绘不能达到的效果在电脑中经过图形处理、编辑、特效等手法都可以达到,在这个过程中也可以给设计师更多更新的思路和启迪,这正是非物质对物质的作用。

在这里尤其提及的一点是,一些设计师比较排斥计算机软件的应用,而有一些人特别热衷于计算机制图软件的学习,这两者都各有可取之处,前者认为设计软件是没有生命的东西,是生硬的,不可取代人的创意思维。而后者认为计算机的很多应用技术是手绘设计技巧不能达到的。这两者取其优点,我们不能一味的排斥和追求计算机软件的应用,首先设计师创意思维的重要性是不可能被任何技术所取代的,任何设计的基础还是设计师,但是设计师设计思维的表述纯粹的用手工技巧很多想法和思路是无法拓展和实施的,这就离不开计算机制图软件的应用,计算机制图软件是设计师设计思维延展和实施的有效工具。计算机技术的不断发展必然推动着信息时代平面设计数字化进程,设计软件的不断研发为设计师的创意思路的发展提供了众多空间,同时计算机网络传输和存储功能也给世界各地的设计人员和大众带来了交流空间。

2、虚拟社会在视觉传达设计中的体现。

现在的非物质的社会也是虚拟的社会,网上银行可以使“钱币”自由存储;各种购物网站的出现让我们游走的各个“商场”“店铺”之间,同时完成对同类产品全国价格的比较与购买;电子杂志也在一步步取代“书本杂志”,;企业宣传也不再是游走于各个城市之间,网络广告的出现就起到了“无形”的宣传效力。例如李维斯服饰的虚拟空间,察看最新资讯,网站本身是虚拟的(非物质的),但作为宣传的产品本身又是现实存在的(物质的),由此可见物质是作用于非物质设计之上的,非物质设计是服务于物质及受众群体的。

3、环境(生态)在视觉传达中的体现。

非物质设计是注重生态的设计,生态的根源是人,非物质的根源也是人,生态的非物质环境表现是视觉传达设计重要表现形式。

计算机视觉的基本任务篇4

关键词:计算机基础教育;教学改革;教学方法;实践教学

中图分类号:G642文献标识码:a

社会对计算机应用能力要求的不断提高,对高校计算机基础课程的教学来说是一个极大的挑战。如何培养学生的计算机素质和计算机应用能力,让非计算机专业大学生成为既能掌握本专业知识,又能熟练使用计算机工具的复合型人才,成为当前的研究热点。

1高校非计算机专业计算机基础课程的教学现状

1.1计算机基础课程没有很好地突出专业特色

目前,我省高校所有的非计算机专业所开设的计算机基础课程几乎都一样,仍然停留在几个基本应用软件使用方法的介绍水平上。主要包括windows2000和office2000。然而随着计算机技术的飞速发展,旧版本已经跟不上最新的操作系统和办公室软件的使用,所以学生普遍感觉课程的实用性差,并且不同专业的计算机基础课程在培养目标、课程体系、学时安排等方面都没有突出专业特色。不同专业的学生就业领域不一样,对同一内容的要求程度也不同,学校应该有意识地让学生学会利用计算机知识解决本专业的问题。

1.2多元化教学手段在教学过程中没有突显优势

多媒体作为一种先进的教学手段已经开始广泛使用,但利用多媒体教学存在不少弊病:如学生与教师之间的互动减少了,学生对教师的印象是“只闻其声不见其人”,学期结束后很多学生不知道教师是谁;有的教师课件太过于花哨,强调了视觉和听觉的效果,却分散了学生的注意力;多媒体教学速度快,信息量大,学生不易记笔记,部分学生感觉跟不上进度;目前开发的多媒体软件更新速度不够快,长期使用多媒体,学生会产生视觉疲劳,对这种教学方式产生厌倦感,达不到预期的效果。

另外,我省很多高校的网络资源利用不充分,网络教学平台上没有足够的教学资源,也缺乏教师的参与,学生在平台上学习达不到自主学习和协同学习的效果。

1.3学生的动手能力差,创新意识差

计算机作为一种工具,在教学过程中更应该注重学生能力的培养,但现在学生的动手能力普遍较差,不会运用所学的知识解决实际问题。比如:学生记住了计算机一些接口的名称和作用,却不知U盘该往哪儿插;学生学完了word2003后,却不会根据需要完成一份班级晚会的节目单。在教学过程中,“教师教什么,学生学什么”的授课理念压制了学生的学习积极性,学生的学习很被动,没有学习兴趣,就更谈不上创新意识了。

1.4大学新生计算机水平参差不齐

随着计算机应用的普及,计算机基础教育已经进入中学课堂,地区差异造成了新入学的大学生在计算机操作水平上的参差不齐。部分学生在中学时期就已经能够熟练地使用文字编辑、收发邮件,甚至会制作简单的Flas,而有的学生在中学期间根本就没有接触过计算机,计算机操作水平几乎为零。这种两极分化反映在课堂教学中就会出现“吃不饱”与“消化不了”的教学矛盾。

2教学改革的思路探索

面对我省当前计算机基础教育的现状,我们提出了一些改善措施。

2.1结合专业特点,突出专业特色

非计算机专业的学生担负着将计算机技术引入各个部门、各个学科,使之为各行业尤其是科研领域服务的任务。非计算机专业计算机基础课程的教学目的应该是培养学生能够较熟练地掌握计算机的基本技能,并且能够应用软件解决一些实际问题。现在社会对大学毕业生的计算机能力有了更高的要求,所以大学生不得不考虑充分利用有限的学习时间有选择地学习一些技能,为日后从事本专业的工作奠定基础,这就要求我们在课程设置上除了介绍一些基本的技能之外,还要设计符合不同专业的教学内容。我们可以根据毕业就业方向的需要,让学生学习与专业有关的计算机应用课程和一些最新技术,建立起在校所学知识与社会需求的一个“接口”,以便学生在毕业后能灵活运用所学知识开展工作。比如:针对不同专业在高年级时可以开设一些网络实用技术、计算机绘图等课程。总之,对于计算机基础教学,应该既有基础课的性质,又要满足学生的专业需求。

2.2计算机基础课程的分级教学模式

这种教学模式类似于研究生入学后的英语免考制度。我们可以针对学生计算机水平的差异,通过问卷调查的方式了解学生的计算机基础情况,允许他们自愿选择“免考”或“必考”两个不同层次,并对选择“免考”的学生进行相关考核,根据考核成绩,在学生自愿的前提下,依据学校的有关规定对学生进行分级教学。对于符合“免考”条件的学生,鼓励他们结合个人爱好和所学专业选修一些其他的计算机相关课程。比如:美术专业可以选修图像处理、绘图软件等课程,喜欢制作网页的同学可以选修网页制作的课程。而对于“必考”的学生,则可以很细致地讲授计算机文化基础的所有教学内容,在学期结束之后,如果他们愿意继续选修一些计算机的相关课程,也可以安排他们和下一级的“免考生”一同上课。

这种分级教学模式能够很好地解决教学中出现的“吃不饱”和“消化不了”的矛盾,使教学更有针对性,也更能激发学生的学习热情和学习自信心,真正做到“因材施教”。

2.3各种教学手段并用,实现教学方法的优化组合

在计算机基础教学中,教学模式从早期的“黑板+粉笔”发展到“计算机+大屏幕”,又发展到目前的“网络化教学平台”,体现了教学手段和教学方法的不断改革。

多媒体作为一种新的教学手段,使教学内容形象化、多样化,以图、文、动画、视频等多种形式展示计算机基础内容。科学实验已经证明:人们对从语言方式获得的知识能够记忆15%,对从视觉获得的知识能够记忆25%,而对视觉、听觉共同运用接受的知识能够记忆65%,可以使学生实现双向交互式学习。我们应该很好地利用多媒体的优势,使其发挥更好的效果。比如:在课件制作上,鼓励教师自己动手制作适合教学的课件,广泛开展制作课件比赛,集思广益,尽量让课件具有集成性、控制性和交互性,甚至可以让学生也参与进来,以便提高学生的学习积极性,激发他们的学习兴趣。

完善网络化教学平台,使学生在课后可以利用网络浏览教学资料,弥补在课堂中遗漏的知识点;开展网络自测,以便随时掌握自己的学习情况,查漏补缺;通过e-mail或BBS与同学或教师进行同步或异步交流,交流学习中的经验和感受,互帮互助。加强网络化教学与多媒体教室教学的有机结合,这些都能够提高教学效率,增强学生的主动性。

2.4合理安排教学与实验,重视实践教学

计算机基础是一门实用性很强的课程,因此在教学中要非常重视培养学生实践操作的能力。目前,我省大部分高校计算机基础课的理论课时间和上机实验课的时间比例为1∶1,但由于时间间隔较长,学生在学习过程中不能实时操作,造成理论与实践脱钩,学生易忘,因此采用边讲边练的方法能达到很好的教学效果。比如:第一节理论课可以通过多媒体教室详细讲解并演示给学生看,第二节安排上机,给学生布置一些任务,让学生根据上节课的内容自行完成,这样通过一堂讲一堂练的模式,能够很好地将所学知识运用到实践中去。当然,任务的设置应当难度适当,张弛有度,应以学生在认真思考和独立钻研后能够解决为宜,否则不仅无法锻炼学生的实践能力,还会打击学生的学习信心和自主性。

在实践教学的过程中,要做到精讲精练,在讲清课程重点和基础知识的同时还要利用好资源,让学生能够实际操作,多动手解决实际问题。比如:在学习计算机基础的系统组成部分时,可以让学生拆解计算机的各个零件,让学生了解主板、内存、光驱等。

2.5采用导入式教学,积极培养学生的创新能力

心理学研究表明:人人都有创造性思维。如何激发学生的创造性也是计算机基础教学必须解决的一个问题。

计算机基础课程涉及内容多,更新速度快,对教师来说,最重要的是把学习方法教给学生,让学生学会自主学习,教师在教学的过程中应放手让学生学会思考,告诉学生“自己试试看”,多做拓展性的训练,培养他们的自学能力。还可以采用案例教学,如在讲ppt时,可以先把一个事先做好的样板演示给学生看,让学生对演示的样板产生兴趣,然后再把学生分组,并且给每组布置任务,最后再详细讲解样板制作步骤,引导学生用所学知识完成学习任务,同时鼓励他们创新。通过这一过程,学生的创新思维得到了很好的激发,这些举措真正培养了学生的动手能力、创新意识和协作精神。

3结论

在计算机基础教学的实践过程中,应该首先认清楚计算机基础教学的性质,确定计算机基础教学的指导思想和教学目标,然后构建与之配套的课程体系,再配以得当的教学方法和良好的教学环境。在教学过程中还要根据专业特点和外在条件的变化,随时调整影响教学的各种要素,这样才能实现教学过程的最优化和最佳的教学效果。

总之,随着计算机技术的飞速发展,计算机基础教育面临着很大的挑战,充分发挥现代先进的教育手段的优势,培养适应社会发展的高素质复合型人才,是我们共同的责任。

参考文献:

[1]张成本,何清林,李柳柏.“计算机文化基础”重点课程建设的改革与实践[J].计算机教育,2006(6):35.

[2]于景伟.多媒体网络教室的计算机教学改革与实践[J].教育探索,2003(6).

[3]李红梅.采用“问题教学法”激发调动学生学习的积极主动性[J].教学研究,2003,26(3):279.

[4]张民.关于高校计算机基础教育改革的几点思考[J].计算机教育,2007(6):19.

ResearchinteachingofBasicComputerKnowledgeeducationfornon-computerSpecialty

CHenXu-sheng,GUoSong

(CollegeofComputerScienceandinformationtechnology,XinyangnormalUniversity,Xinyang464000,China)

计算机视觉的基本任务篇5

关键词计算机;图形设计;视觉传达系统

中图分类号:tp391文献标识码:a文章编号:1671-7597(2013)12-0031-01

目前来讲,计算机图形设计并非一个新鲜事物,因为在20世纪80年代,部分国家就利用计算机设计过图形。该设计方式传到我国,并展开了新的历程。而与计算机图形设计相比,视觉传达技术出现的时间更早,然而站在学科视角来讲,视觉传达依然属于较为年轻的范畴。视觉传达就是把视觉符号当作一个传达信息的通道,人类利用视觉符号展开信息共享与沟通,且该方式同样是人类信息资源传播中一种关键手段。根据有关数据统计,利用视觉传达系统传播的信息占人类信息的70%,然而由于在人类感官系统内,对外部环境中所传播的信息,视觉系统占有主要地位。因此,假使信息接收过程中,人类是依靠视觉系统完成的,并利用另一个感官完成其他信息的接收,如果两者之间发生冲突,人类的反应也会随之变化。

1计算机成图图形设计与视觉传达系统概述

1.1设计思路

在计算机成图图形设计与视觉传达系统设计过程中,设计人员不但要放开手脚,大胆做,还应该具有一定的弹性,不能被技巧与知识水平所制约,从而创造具有自身特点且与常规不符的作品,这无疑将成为设计的独到之处。通常情况下,人们将视觉传达系统设计当作一个展现思维的方式,尤其是在设计过程中把图形与文字有机结合,互相作用,且呈现出对方的优点,所以,视觉设计在对符号进行设计的过程中,应该尽可能对其进行优化,将符号自身的优点完美展现出来,进而在整体中表达其思想。

1.2设计技术与方法

设计工作者应该紧随时展的脚步,充分利用计算机这一先进科学工具,将最好的设计思想表达给大众。此外,由于全球信息技术的迅猛发展,在电影制作与广告方面,均要求运用到计算机成图图形设计,而且设计人员在设计时,也能利用不同的工具,对图形的清晰度进行适度的调整,进而让大众获得不错的视觉感受。

1)提炼客体。图形设计的创作来源主要是客体的表现以及对其的观察。然而在设计过程中必须抓住客体主要的特性,忽略不重要的特性,运用最简单的图形将其所包含的意思表达出来。设计人员在对客体进行提炼的过程中,不但要把握物体的共性,还必须注意其个性。图形设计在提炼客体时涵盖了两个方面的思想:提炼设计的任务;提炼和主题思想有关的图形。

2)重组图形。所谓的重组图形就是把图形中的构成部分进行科学有序的结合。图形的素材就好比是产品的原料,还必须对其进行生产加工方能成为最终的成品。其中最具决定性的一个部分就是图形结构的安排。对图形进行不一样的组合能够产生不同的图形,现今最为常见的重组形式有置换、同构以及轮廓线的矛盾、共生等等。所谓的同构就是将两个或两个以上的形象结合为一个统一的整体,其目的就是依托某个图形形象表现出其他图形的特点。在同构的作用,能够使图形形象更为厚重,有内涵,营造更为新奇的感觉。

2视觉传达系统内图形设计的特征

2.1明确的主题思想

设计人员在对图形进行设计的过程中,首先就必须对其基本内容进行规划,明确主题思想,也就是确定自身所要体现的核心内容。例如美的冰箱的广告都要求突出一个作用,即保鲜,那么设计人员在图形设计中必须抓住的关键思想就是鲜活,这一特征不但是该广告设计的目标,同时是图形设计的主题。而这个主题必须具备独特性,能和竞争对手区分开来,有助于大众去选择该产品。主题和图形应该相互作用,主题的主要载体就是图形,而图形的灵魂就是主题思想,主题思想通过图形体现出来。主题思想在初期形成过程中有很多因素都是不明确的,例如表达形式的多元化、视觉元素的多样化以及受众喜好的多样化等。以上述中“鲜活”主题来讲,运动场等视觉元素均能表达该特性,但在表达形式上可以采用不一样的方式,例如影构、置换以及同构等。另外,站在目标受众角度来看,家庭主妇是冰箱使用者,因此在设计过程中必须对其进行调查,了解其特征。设计人员将这些因素都结合起来,分析所要设计的主题,最后明确恰当的表达方式。

2.2图形设计的任务

在进行视觉传达系统设计过程中,每一个图形设计任务的提出均有一定的原因,例如商业广告的设计,它是在经济因素的基础上提出的;包装的设计,其目的是为了宣传企业文化、形象或者是打造产品形象;公益广告的设计,其目的向广大受众传播一种思想与信念。而所处社会的经济状况与大众的接受水平对图形设计任务的提出有一定的影响力。图形传播是在一定的社会背景下进行的,例如当时的风俗、文化等。在对图形进行设计的过程中,必须确保图形的内容和形式与上述客观背景相配合。

2.3形象生动

图形设计与绘画是不一样的,绘画时必须确保物和物的协调统一,因此画家在绘画过程中必须先了解所画物体的形象。但是图形则并非如此,图形设计必须选取大众所能接受的物体,这就说明图形设计过程必须选取生活中较为常见的物品作为载体,只有这样设计出来的产品方能让大众记住,并且让大众所理解其中的含义。

3结束语

总而言之,在当前社会,国家快速发展的主要源头在于科学技术的进步。在各行各业的发展当中,计算机成图图形设计与视觉传达系统设计得到了普遍的运用。所以,人们只有不断的对技术进行更新,不断的对视觉传达系统设计进行分析,进而将计算机成图图形设计运用到生活与工作中,促进社会的快速发展。目前各行各业都面临着巨大的压力与挑战,所以计算机图形设计应该与时展相适应,以便寻求更好的发展前景,尤其是在与视觉传达系统设计有机结合时,应该互相作用、互相影响,那么在不远的未来将会出现新的发展。

参考文献

计算机视觉的基本任务篇6

〖姓名〗黄可坤〖出生年月〗79.10〖籍贯〗广东省梅州市〖民族〗汉〖学历〗硕士〖专业〗应用数学〖研究方向〗计算机图像处理〖本科专业〗应用数学(副修计算机软件)〖家庭住址〗广东省梅州市梅江区〖联系地址〗广州市中山大学数学系应用数学02研510275〖联系电话〗(020)84112378〖个人主页〗

1.求职意向在高校从事基础教学与研究工作。在有一定企业文化的公司或者企事业单位从事计算机软件系统的设计、开发或者维护。

2.教育背景时间院校备注1992年9月--1998年7月中学。学习成绩一直比较优秀,被保送上高中。曾任学习委员、体育委员。1998年9月--2002年7月本科,主修应用数学、副修计算机软件。学习2002年9月--2005年7月广州市中山大学硕士,应用数学,方向为计算机图像处理与模式识别,师从副院长戴道清教授。学习成绩良好,曾任班长。

3.技能专长英语通过大学英语数学对小波分析、图像处理、模式分类、计算机视觉有比较深的认识。熟练掌握数学分析、线性代数、微分方程、概率论与数理统计等主干课程。计算机能力系统开发:C/C++(优)、Delphi(优)、VisualC++(良)、C++Builder。网站建设:aSp(优)、Javascript(优)、Dreamweaver。数据库系统:SQLSever(优)、oracle(中)。服务器与网络:windows2000Server、Unix/Linux(良)、tCp/ip(优)。多媒体与课件制作:photoshop、Flash、authorware、powerpoint。

实验工具:matlab(优)。理论基础:熟练掌握数据结构、离散数学、计算机网络、操作系统等课程。实践项目:艺达堡mRpii系统、物业综合事务管理系统、鹤山宝华菲力制衣管理系统、雨人工作室管理系统、线性规划问题求解、南方证券广州分公司、李律师在线、好易网、中国妇幼网、天辅网。4.教学科研2002年进入中山大学数计学院计算机视觉实验室:进行模式识别方面的研究,参与了《小波分析在图像处理中的应用》等科研项目,以及一些教学课件的制作。用matlab实现了一种新的基于小波的图像融合算法,取得了比较好的效果。以及实现了一些常用的人脸识别的算法,比如pCa、LDa和SVm的方法。还实现了一些常用的图像压缩的方法,比如基于离散傅里叶变换、余弦变换和小波变换的方法。完成硕士毕业论文《小波包在人脸识别中的应用》,主要作出了三个有意义的贡献。参加了第三届、第四届省港澳图象图形学会等学术会议。担任了实验室的网络管理员。2004年上学期担任中山大学数计学院成人夜大本科2001级计算机应用专业《网络数据库》的教师。2004年下学期继续担任了该夜大02级《计算机网络》教师。讲课认真负责,获得学生一致好评。5.工作实践2000年暑假在广州市精软网络数据有限公司担任程序员,并独立开发了一个物业综合事务管理系统,之后一直在维护该系统。2000年9月到2001年9月在中山大学雨人工作室担任程序员及项目负责人,分析、设计、开发和维护了不少实际的商业管理信息系统和网站。2001年9月和几个同学一起创建了中大方略工作室,自己负责人员、资金、市场、项目的管理和开发。2002年1月拿到了广东北电通信设备有限公司软件设计师的

计算机视觉的基本任务篇7

(中国卫星海上测控部,江苏江阴214400)

【摘 要】执行海上测控任务期间,为确保测控通信设备的稳定可靠,海上测控通信系统的训练模式仍是采取以口头演练为主,辅以仿真训练的模式,已不能适应当前高密度海上测控训练的要求,通过信息化手段引进基于虚拟现实训练模式,实现海上测控通信系统训练模式的转换具有重要意义。

关键词训练模式;虚拟现实;测控通信系统

0 引言

高密度海上测控任务要求测控通信系统设备必须稳定可靠,这就给传统的测控通信训练模式带来挑战,以往测控通信系统训练模式采取以理论训练和实操训练相结合的方式进行,并采取仿真训练等手段为辅助手段,这些训练模式取得了良好效果,培养了大量的海上测控通信人才。随着信息化技术的发展和虚拟现实技术的应用,在越来越多的领域采取虚拟训练的模式开展训练,其具有训练成本低、安全性高、不受时空限制且训练效果好等特点,通过训练模式转变的研究,将有效推动通信系统训练效益。

1 海上测控通信系统训练模式综述

海上测控通信系统训练模式包括个人自学、承师带徒、厂所培训、授课讲课、联调演练及网络化训练等模式,为海上测控通信系统人才培养、能力提升作出了重要贡献。

1.1 个人自学

个人自学是根据个人训练的实际情况,依据年初制定的个人年度训练计划开展专业训练的方式,其具有针对性强、效果有限的特点,侧重于对设备基本信息、基本操作、基本流程、基本原理的掌握。

1.2 承师带徒

承师带徒是为岗位人员指定本专业技术骨干开展专业知识培训,包括理论授课、实操演示等,主要通过“以老带新、互帮互学”等方式开展训练,其具有指导性强、重点突出等特点,侧重于基本操作、基本原理的学习和掌握。

1.3 厂所培训

厂所培训主要结合新设备研制、改造、联合课题研究、厂所代职等工作进行,厂所培训能够使岗位人员对设备的总体知识、设备性能、设备原理等进行深层次的学习和研究,对提升岗位人员执掌设备能力和科研试验能力具有重要作用。

1.4 授课讲课

授课讲课可分为新学员汇报讲课、外训人员汇报讲课、岗位专家授课、外请专家授课等。通过授课讲课既可检查人员知识掌握情况。又可使岗位人员学习了解当前新技术、新研究、新应用等,为岗位人员提供岗位训练和科研创新动力。

1.5 联调演练

联调演练是为了熟悉任务流程、检验参试设备工作状态和技术性能,验证软硬件的可靠性、协调性,确保测控通信设备间的接口正确、可靠,可培养岗位人员严谨的试验作风、熟练掌握操作流程和任务工作流程,锻炼指挥员的组织指挥和协同能力,是一种综合性的训练方式。

1.6 网络化训练

网络化训练是指利用网络上的训练资源或者相关训练软件辅助人员进行训练、考核的训练方式,主要包括网上模拟系统训练、远程培训、视频教学和网上考核等。网络化训练可以充分利用网络集成化,数字化,资源共享方便快捷等特点辅助训练,扩展训练模式,提高训练效率,优化考核过程。

1.7 计算机模拟训练

计算机模拟能够逼真地显现现实中相关任务的过程,可激起参训人员的行为和思维的反应,是一种有效地训练手段。但目前的计算模拟训练存在交互性不强、环境不逼真、“身临其境”感觉不明显等问题,停留在二维层面,训练效果与预期的差距较大,不能满足模拟训练要求,急需研究新的真实性较高、交互性较强、立体感较好的模拟训练模式。

2 虚拟现实仿真模拟训练模式的概念

训练模拟系统从技术手段上看,主要包括三种类型:一是以硬件设备为主、结合相关软件、与实际装备基本一致的“硬”模拟系统,比如,用于驾驶和操纵训练的各种专项技能训练模拟器;二是以软件方式为主、用虚拟界面代替实际装备界面、与实际装备视觉效果基本一致的“软”模拟系统,比如,用于装备操作流程训练、战术指挥训练的各种训练模拟系统等;三是在实际平台或装备系统中嵌入专用于训练的信息支持软件,从而构成了实装嵌入式训练模拟系统。无论上述哪一种训练模拟系统,其所构成的训练环境与真实环境相比都存在较大的差距,因此,“仿真度”问题一直困扰着模拟领域,对“构造逼真训练环境”的追求长期存在并一直未能得到很好地解决。虚拟现实技术可对研究对象和环境获得“身临其境”的感受,提高人类认知的广度和深度,拓宽认识空间和方法空间,是仿真技术的发展方向。

2.1 虚拟现实系统的基本概念

虚拟现实(VitualReality,VR),又称“灵境技术”,是综合利用了计算机图形学、仿真技术、多媒体技术、人工智能技术、计算机网络等技术,模拟人的视觉、听觉、触觉等感觉器官功能,使人沉浸在计算机生成的虚拟环境中,通过语言、手势等自然的方式与之进行实时交互,创建一种适人化的多维信息空间。

2.2 虚拟现实系统的基本特征

虚拟现实系统的最大优势是能够充分发挥在由计算机和人构成的系统中人的主观能动性,即把人的感知能力、认知能力和心理状态在计算机系统中得到体现,人与系统交互采用完全自然的方式。其基本特征可通过“灵境技术三角形”加以描述,即“3个i(immersion(沉浸)-interaction(交互)-imagination(构想))”。

2.3 虚拟现实系统的基本构成

虚拟现实系统一般分为桌面式、大屏幕式和头盔式,按照系统构成划分可分为检测模块(检测用户的操作命令,并通过传感器模块作用于虚拟环境)、反馈模块(接受来自传感器模块的信息,为用户提供实时反馈)、传感器模块(接受来自用户的操作命令将其作用于虚拟环境,并将操作后产生的结果以相应的反馈形式提供给用户)、控制模块(对传感器进行控制,使其对用户、虚拟环境和现实世界产生作用)、3D模型库(现实世界各组成部分的三维表示,并由此构成对应的虚拟环境)及建模模块(获取现实世界各组成部分的三维数据,并建立他们的三维模型)。

2.4 虚拟现实训练模式特点

与传统的训练模式相比较,使用虚拟现实的训练模式主要有以下特点:

(1)提高训练环境的逼真度。通过虚拟现实的模拟训练系统,设立与任务实战、设备故障等相一致的训练环境,使参训人员处于逼真的环境下开展训练,可避免因设备安全隐患而降低训练难度和标准的情况发生。

(2)大大缩短训练时间。通过计算机虚拟技术可迅速设置联调演练和任务实战场景,且不受人员、环境、天气等影响缩短了参训人员的准备时间。

(3)大大减少了装备的损耗。由于海上环境复杂,设备动用频繁极易造成设备故障损坏,从而增加海上测控任务风险。在实际施训中,可通过模拟训练提高训练的逼真度,在确保训练效益的前提下,降低设备损坏。

(4)可复现人员训练情况。在使用虚拟训练系统进行训练时,系统可模拟各种实际情况,并对相关训练情况进行记录、回放,以便于进一步掌握、了解训练中的得失,做好总结,提升能力。

3 测控通信系统虚拟现实训练模式建设

虚拟现实仿真训练模式是引领未来测控通信系统训练的先进训练模式,对于提高测控通信系统训练效益具有重要意义,虚拟现实仿真训练模式主要包括以下软硬件保障、训练内容和方式、训练制度保障等方面内容。

3.1 软硬件建设

虚拟现实仿真训练的目标是由计算机生成虚拟世界,用户可以与之进行视、听、触、嗅觉等全方位的交互,并且可实现实时响应。因此除了高性能的计算机外,还需要相关的软件。

通过专业VR建模软件如openGL、pro/e、Vega、Creator等建立环境模型,可结合VisualC++构建的平台营造虚拟环境;运用多种方法来保证三维场景的动态显示;利用模板匹配、人工神经网络等技术实现运动的识别来交互;为保证环境的真实性,还需要使用i-Collide、papiD、V-Clip等算法进行实时的碰撞检测。

通过软件和硬件将通信系统设备、接口、环境等通过计算机进行模拟仿真,增强通信环境的“逼真度”,为基于虚拟现实的训练模式提供场景、环境、反馈等支撑,实现了基于虚拟现实的软硬件支撑。

3.2 训练内容方式

(1)单人通信设备模拟训练。基于VR的模拟训练系统最初应用于单人操作维护装备,对于单人通信设备模拟操作训练具有得天独厚的优势,可通过三维图形生成系统生成逼真的涌浪、船摇、风浪等各种设备操作条件,与合成的三维空间声音的效果一同,完成单人通信模拟训练系统的训练,如天线跟踪的飞车现象等。通过单人通信设备模拟训练实现单人在各种气象条件和环境下,逼真模拟操作设备训练。

(2)开展指挥人员模拟训练。根据应急状态下和常态化任务状态下,综合甲板、机房等各种环境下的通信状态、场景,让指挥员通过传感器装置观察设备状态及处置现状,以便于逼真模拟与真实环境完全相似的环境,生动的视觉、听觉和触觉效果,使受训指挥员“沉浸”在“真实的”试验任务环境中,开展任务指挥及应急处置指挥,锻炼指挥员的心理素质和指挥能力。

(3)通过网络开展异地同环境演练。通信系统最大特点是点多、线长、面广,一个设备故障可能涉及到多个方向、多个测站,只有通过协同指挥、协同操作才能彻底排除故障,因此运用虚拟现实技术分布式交互仿真并结合现代网络通信技术,通过模拟训练中心设置在不同测量站(船站)的指挥员的模拟系统终端,实现不同地域、相同环境的模拟训练,各测站之间的通信系统可通过局域网和广域网实现互联互通,并在此基础上开展联合演练,排除设备故障、组织基地间的通信设备应急处置联合训练。

3.3 训练模式发展趋势

随着计算机信息技术尤其是网络技术的迅猛发展,未来基于虚拟现实技术的模拟训练模式将呈现新的发展。

(1)着眼复杂环境,构建多维虚拟试验任务环境,提高训练效益。在实际任务过程中,海上通信环境呈现陆、海、空、天、电等多维发展的趋势,需要在复杂多变的环境中保持通信信息畅通,应着重加强复杂环境下的多维训练。

(2)实施超实时模拟训练。这种训练是使受训对象在模拟环境中进行的一种比正常训练速度更快的训练。通常采用压缩时间跨度,加快作业进程,提高训练强度的方式进行,使受训者得到超常的反应和训练,其适用于技能型训练。

(3)与心理训练紧密结合。通过将虚拟现实模拟训练与心理训练紧密结合后,进一步训练人员的心理承受能力和恢复能力,对于应急情况下的组织指挥、应急操作均有重要意义。

4 结束语

创新信息化条件下训练模式,既是深化训练改革的核心,目前基于虚拟现实的模拟训练仍然处于蓬勃发展的阶段,尚未成规模、成体制,相应的硬件建设、软件建设、制度建设等仍处于研究和探索阶段,但其广阔的应用前景和巨大的发展潜力引导研究引向深入,为测控通信系统的训练模式改革创新提供技术支撑。

参考文献

[1]李林,吴卫玲,黄权欣.虚拟维修综述[J].科技信息,2009(33).

[2]胡小强.虚拟现实技术基础与应用[m].北京:北京邮电大学出版社,2009.

[3]刘世斌,刘兴彦.虚拟现实技术在军事上的研究[J].应用与安全,2003(04):604-607.

[4]洪炳镕,蔡则苏,唐好选.虚拟现实技术及其应用[m].北京:国防工业出版社,2005.

[5]袁华.训练模拟系统发展现状及启示[J].国防科技,2009(01):62-65.

计算机视觉的基本任务篇8

1前言

1.1研究背景

人工智能概念诞生于1956年,在半个多世纪的发展历程中,由于受到智能算法、计算速度、存储水平等多方面因素的影响,人工智能技术和应用发展经历了多次高潮和低谷。2006年以来,以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。云计算、大数据等技术在提升运算速度,降低计算成本的同时,也为人工智能发展提供了丰富的数据资源,协助训练出更加智能化的算法模型。人工智能的发展模式也从过去追求“用计算机模拟人工智能”,逐步转向以机器与人结合而成的增强型混合智能系统,用机器、人、网络结合成新的群智系统,以及用机器、人、网络和物结合成的更加复杂的智能系统。

作为新一轮产业变革的核心驱动力,人工智能在催生新技术、新产品的同时,对传统行业也具备较强的赋能作用,能够引发经济结构的重大变革,实现社会生产力的整体跃升。人工智能将人从枯燥的劳动中解放出来,越来越多的简单性、重复性、危险性任务由人工智能系统完成,在减少人力投入,提高工作效率的同时,还能够比人类做得更快、更准确;人工智能还可以在教育、医疗、养老、环境保护、城市运行、司法服务等领域得到广泛应用,能够极大提高公共服务精准化水平,全面提升人民生活品质;同时,人工智能可帮助人类准确感知、预测、预警基础设施和社会安全运行的重大态势,及时把握群体认知及心理变化,主动作出决策反应,显著提高社会治理能力和水平,同时保障公共安全。

人工智能作为一项引领未来的战略技术,世界发达国家纷纷在新一轮国际竞争中争取掌握主导权,围绕人工智能出台规划和政策,对人工智能核心技术、顶尖人才、标准规范等进行部署,加快促进人工智能技术和产业发展。主要科技企业不断加大资金和人力投入,抢占人工智能发展制高点。2017年,我国出台了《新一代人工智能发展规划》(国发〔2017〕35号)、《促进新一代人工智能产业发展三年行动计划(2018-2020年)》(工信部科〔2017〕315号)等政策文件,推动人工智能技术研发和产业化发展。目前,国内人工智能发展已具备一定的技术和产业基础,在芯片、数据、平台、应用等领域集聚了一批人工智能企业,在部分方向取得阶段性成果并向市场化发展。例如,人工智能在金融、安防、客服等行业领域已实现应用,在特定任务中语义识别、语音识别、人脸识别、图像识别技术的精度和效率已远超人工。

标准化工作对人工智能及其产业发展具有基础性、支撑性、引领性的作用,既是推动产业创新发展的关键抓手,也是产业竞争的制高点。当前,在我国人工智能相关产品和服务不断丰富的同时,也出现了标准化程度不足的问题。人工智能涉及众多领域,虽然某些领域已具备一定的标准化基础,但是这些分散的标准化工作并不足以完全支撑整个人工智能领域。另一方面,人工智能属于新兴领域,发展方兴未艾,从世界范围来看,标准化工作仍在起步过程中,尚未形成完善的标准体系,我国基本与国外处于同一起跑线,存在快速突破的机会窗口。只要瞄准机会,快速布局,完全有可能抢占标准创新的制高点,反之,则有可能丧失良机。因此,迫切需要把握机遇,加快对人工智能技术及产业发展的研究,系统梳理、加快研制人工智能各领域的标准体系,明确标准之间的依存性与制约关系,建立统一完善的标准体系,以标准的手段促进我国人工智能技术、产业蓬勃发展。

1.2研究目标及意义

本白皮书前期在国标委工业二部和工信部科技司的指导下,通过梳理人工智能技术、应用和产业演进情况,分析人工智能的技术热点、行业动态和未来趋势,从支撑人工智能产业整体发展的角度出发,研究制定了能够适应和引导人工智能产业发展的标准体系,进而提出近期急需研制的基础和关键标准项目。

本白皮书并不预期成为人工智能领域的全面技术和产业综述,不求面面俱到,仅针对目前人工智能领域涵盖的技术热点和产业情况进行分析,研究提出人工智能标准体系。人工智能标准化工作尚处于起步阶段,本白皮书只作为人工智能领域技术、产业和标准化之间初始的连接纽带,并将在今后不断根据技术、产业和标准化的发展需求进行修订。本白皮书不过多地给出人工智能领域观点性的陈述,力求以较为浅显易懂的语言和方式进行阐述。

本白皮书的意义在于与业界分享人工智能领域的研究成果和实践经验,呼吁社会各界共同加强人工智能领域的技术研究、产业投入、标准建设与服务应用,共同推动人工智能及其产业发展。

2人工智能概述

2.1人工智能的历史及概念

2.1.1人工智能的起源与历史

人工智能始于20世纪50年代,至今大致分为三个发展阶段:第一阶段(20世纪50年代——80年代)。这一阶段人工智能刚诞生,基于抽象数学推理的可编程数字计算机已经出现,符号主义(Symbolism)快速发展,但由于很多事物不能形式化表达,建立的模型存在一定的局限性。此外,随着计算任务的复杂性不断加大,人工智能发展一度遇到瓶颈;第二阶段(20世纪80年代——90年代末)。在这一阶段,专家系统得到快速发展,数学模型有重大突破,但由于专家系统在知识获取、推理能力等方面的不足,以及开发成本高等原因,人工智能的发展又一次进入低谷期;第三阶段(21世纪初——至今)。随着大数据的积聚、理论算法的革新、计算能力的提升,人工智能在很多应用领域取得了突破性进展,迎来了又一个繁荣时期。人工智能具体的发展历程如图1所示。

长期以来,制造具有智能的机器一直是人类的重大梦想。早在1950年,alanturing在《计算机器与智能》中就阐述了对人工智能的思考。他提出的图灵测试是机器智能的重要测量手段,后来还衍生出了视觉图灵测试等测量方法。1956年,“人工智能”这个词首次出现在达特茅斯会议上,标志着其作为一个研究领域的正式诞生。六十年来,人工智能发展潮起潮落的同时,基本思想可大致划分为四个流派:符号主义(Symbolism)、连接主义(Connectionism)、行为主义(Behaviourism)和统计主义(Statisticsism)(注:由于篇幅原因,本白皮书不对四个流派进行详细阐述)。这四个流派从不同侧面抓住了智能的部分特征,在“制造”人工智能方面都取得了里程碑式的成就。

1959年,arthurSamuel提出了机器学习,机器学习将传统的制造智能演化为通过学习能力来获取智能,推动人工智能进入了第一次繁荣期。20世纪70年代末期专家系统的出现,实现了人工智能从理论研究走向实际应用,从一般思维规律探索走向专门知识应用的重大突破,将人工智能的研究推向了新高潮。然而,机器学习的模型仍然是“人工”的,也有很大的局限性。随着专家系统应用的不断深入,专家系统自身存在的知识获取难、知识领域窄、推理能力弱、实用性差等问题逐步暴露。从1976年开始,人工智能的研究进入长达6年的萧瑟期。

在80年代中期,随着美国、日本立项支持人工智能研究,以及以知识工程为主导的机器学习方法的发展,出现了具有更强可视化效果的决策树模型和突破早期感知机局限的多层人工神经网络,由此带来了人工智能的又一次繁荣期。然而,当时的计算机难以模拟复杂度高及规模大的神经网络,仍有一定的局限性。1987年由于LiSp机市场崩塌,美国取消了人工智能预算,日本第五代计算机项目失败并退出市场,专家系统进展缓慢,人工智能又进入了萧瑟期。

1997年,iBm深蓝(DeepBlue)战胜国际象棋世界冠军GarryKasparov。这是一次具有里程碑意义的成功,它代表了基于规则的人工智能的胜利。2006年,在Hinton和他的学生的推动下,深度学习开始备受关注,为后来人工智能的发展带来了重大影响。从2010年开始,人工智能进入爆发式的发展阶段,其最主要的驱动力是大数据时代的到来,运算能力及机器学习算法得到提高。人工智能快速发展,产业界也开始不断涌现出新的研发成果:2011年,iBmwaston在综艺节目《危险边缘》中战胜了最高奖金得主和连胜纪录保持者;2012年,谷歌大脑通过模仿人类大脑在没有人类指导的情况下,利用非监督深度学习方法从大量视频中成功学习到识别出一只猫的能力;2014年,微软公司推出了一款实时口译系统,可以模仿说话者的声音并保留其口音;2014年,微软公司全球第一款个人智能助理微软小娜;2014年,亚马逊至今为止最成功的智能音箱产品echo和个人助手alexa;2016年,谷歌alphaGo机器人在围棋比赛中击败了世界冠军李世石;2017年,苹果公司在原来个人助理Siri的基础上推出了智能私人助理Siri和智能音响Homepod。

目前,世界各国都开始重视人工智能的发展。2017年6月29日,首届世界智能大会在天津召开。中国工程院院士潘云鹤在大会主论坛作了题为“中国新一代人工智能”的主题演讲,报告中概括了世界各国在人工智能研究方面的战略:2016年5月,美国白宫发表了《为人工智能的未来做好准备》;英国2016年12月《人工智能:未来决策制定的机遇和影响》;法国在2017年4月制定了《国家人工智能战略》;德国在2017年5月颁布全国第一部自动驾驶的法律;在中国,据不完全统计,2017年运营的人工智能公司接近400家,行业巨头百度、腾讯、阿里巴巴等都不断在人工智能领域发力。从数量、投资等角度来看,自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。

2.1.2人工智能的概念

人工智能作为一门前沿交叉学科,其定义一直存有不同的观点:《人工智能——一种现代方法》中将已有的一些人工智能定义分为四类:像人一样思考的系统、像人一样行动的系统、理性地思考的系统、理性地行动的系统。维基百科上定义“人工智能就是机器展现出的智能”,即只要是某种机器,具有某种或某些“智能”的特征或表现,都应该算作“人工智能”。大英百科全书则限定人工智能是数字计算机或者数字计算机控制的机器人在执行智能生物体才有的一些任务上的能力。百度百科定义人工智能是“研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学”,将其视为计算机科学的一个分支,指出其研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

本白皮书认为,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能的定义对人工智能学科的基本思想和内容作出了解释,即围绕智能活动而构造的人工系统。人工智能是知识的工程,是机器模仿人类利用知识完成一定行为的过程。根据人工智能是否能真正实现推理、思考和解决问题,可以将人工智能分为弱人工智能和强人工智能。

弱人工智能是指不能真正实现推理和解决问题的智能机器,这些机器表面看像是智能的,但是并不真正拥有智能,也不会有自主意识。迄今为止的人工智能系统都还是实现特定功能的专用智能,而不是像人类智能那样能够不断适应复杂的新环境并不断涌现出新的功能,因此都还是弱人工智能。目前的主流研究仍然集中于弱人工智能,并取得了显著进步,如语音识别、图像处理和物体分割、机器翻译等方面取得了重大突破,甚至可以接近或超越人类水平。

强人工智能是指真正能思维的智能机器,并且认为这样的机器是有知觉的和自我意识的,这类机器可分为类人(机器的思考和推理类似人的思维)与非类人(机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式)两大类。从一般意义来说,达到人类水平的、能够自适应地应对外界环境挑战的、具有自我意识的人工智能称为“通用人工智能”、“强人工智能”或“类人智能”。强人工智能不仅在哲学上存在巨大争论(涉及到思维与意识等根本问题的讨论),在技术上的研究也具有极大的挑战性。强人工智能当前鲜有进展,美国私营部门的专家及国家科技委员会比较支持的观点是,至少在未来几十年内难以实现。

靠符号主义、连接主义、行为主义和统计主义这四个流派的经典路线就能设计制造出强人工智能吗?其中一个主流看法是:即使有更高性能的计算平台和更大规模的大数据助力,也还只是量变,不是质变,人类对自身智能的认识还处在初级阶段,在人类真正理解智能机理之前,不可能制造出强人工智能。理解大脑产生智能的机理是脑科学的终极性问题,绝大多数脑科学专家都认为这是一个数百年乃至数千年甚至永远都解决不了的问题。

通向强人工智能还有一条“新”路线,这里称为“仿真主义”。这条新路线通过制造先进的大脑探测工具从结构上解析大脑,再利用工程技术手段构造出模仿大脑神经网络基元及结构的仿脑装置,最后通过环境刺激和交互训练仿真大脑实现类人智能,简言之,“先结构,后功能”。虽然这项工程也十分困难,但都是有可能在数十年内解决的工程技术问题,而不像“理解大脑”这个科学问题那样遥不可及。

仿真主义可以说是符号主义、连接主义、行为主义和统计主义之后的第五个流派,和前四个流派有着千丝万缕的联系,也是前四个流派通向强人工智能的关键一环。经典计算机是数理逻辑的开关电路实现,采用冯诺依曼体系结构,可以作为逻辑推理等专用智能的实现载体。但要靠经典计算机不可能实现强人工智能。要按仿真主义的路线“仿脑”,就必须设计制造全新的软硬件系统,这就是“类脑计算机”,或者更准确地称为“仿脑机”。“仿脑机”是“仿真工程”的标志性成果,也是“仿脑工程”通向强人工智能之路的重要里程碑。

2.2人工智能的特征

(1)由人类设计,为人类服务,本质为计算,基础为数据。从根本上说,人工智能系统必须以人为本,这些系统是人类设计出的机器,按照人类设定的程序逻辑或软件算法通过人类发明的芯片等硬件载体来运行或工作,其本质体现为计算,通过对数据的采集、加工、处理、分析和挖掘,形成有价值的信息流和知识模型,来为人类提供延伸人类能力的服务,来实现对人类期望的一些“智能行为”的模拟,在理想情况下必须体现服务人类的特点,而不应该伤害人类,特别是不应该有目的性地做出伤害人类的行为。

(2)能感知环境,能产生反应,能与人交互,能与人互补。人工智能系统应能借助传感器等器件产生对外界环境(包括人类)进行感知的能力,可以像人一样通过听觉、视觉、嗅觉、触觉等接收来自环境的各种信息,对外界输入产生文字、语音、表情、动作(控制执行机构)等必要的反应,甚至影响到环境或人类。借助于按钮、键盘、鼠标、屏幕、手势、体态、表情、力反馈、虚拟现实/增强现实等方式,人与机器间可以产生交互与互动,使机器设备越来越“理解”人类乃至与人类共同协作、优势互补。这样,人工智能系统能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作,而人类则适合于去做更需要创造性、洞察力、想象力、灵活性、多变性乃至用心领悟或需要感情的一些工作。

(3)有适应特性,有学习能力,有演化迭代,有连接扩展。人工智能系统在理想情况下应具有一定的自适应特性和学习能力,即具有一定的随环境、数据或任务变化而自适应调节参数或更新优化模型的能力;并且,能够在此基础上通过与云、端、人、物越来越广泛深入数字化连接扩展,实现机器客体乃至人类主体的演化迭代,以使系统具有适应性、鲁棒性、灵活性、扩展性,来应对不断变化的现实环境,从而使人工智能系统在各行各业产生丰富的应用。

2.3人工智能参考框架

目前,人工智能领域尚未形成完善的参考框架。因此,本章基于人工智能的发展状况和应用特征,从人工智能信息流动的角度出发,提出一种人工智能参考框架(如图2所示),力图搭建较为完整的人工智能主体框架,描述人工智能系统总体工作流程,不受具体应用所限,适用于通用的人工智能领域需求。

人工智能参考框架提供了基于“角色—活动—功能”的层级分类体系,从“智能信息链”(水平轴)和“it价值链”(垂直轴)两个维度阐述了人工智能系统框架。“智能信息链”反映从智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,智能信息是流动的载体,经历了“数据—信息—知识—智慧”的凝练过程。“it价值链”从人工智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。此外,人工智能系统还有其它非常重要的框架构件:安全、隐私、伦理和管理。人工智能系统主要由基础设施提供者、信息提供者、信息处理者和系统协调者4个角色组成。

(1)基础设施提供者

基础设施提供者为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。计算能力由智能芯片(CpU、GpU、aSiC、FpGa等硬件加速芯片以及其它智能芯片)等硬件系统开发商提供;与外部世界的沟通通过新型传感器制造商提供;基础平台包括分布式计算框架提供商及网络提供商提供平台保障和支持,即包括云存储和计算、互联互通网络等。

(2)信息提供者

信息提供者在人工智能领域是智能信息的来源。通过知识信息感知过程由数据提供商提供智能感知信息,包括原始数据资源和数据集。原始数据资源的感知涉及到图形、图像、语音、文本的识别,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)信息处理者

信息处理者是指人工智能领域中技术和服务提供商。信息处理者的主要活动包括智能信息表示与形成、智能推理、智能决策及智能执行与输出。智能信息处理者通常是算法工程师及技术服务提供商,通过计算框架、模型及通用技术,例如一些深度学习框架和机器学习算法模型等功能进行支撑。

智能信息表示与形成是指为描述世界所作的一组约定,分阶段对智能信息进行符号化和形式化的智能信息建模、抽取、预处理、训练数据等。

智能信息推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。

智能信息决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。

智能执行与输出作为智能信息输出的环节,是对输入作出的响应,输出整个智能信息流动过程的结果,包括运动、显示、发声、交互、合成等功能。

(4)系统协调者

系统协调者提供人工智能系统必须满足的整体要求,包括政策、法律、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。由于人工智能是多学科交叉领域,需要系统协调者定义和整合所需的应用活动,使其在人工智能领域的垂直系统中运行。系统协调者的功能之一是配置和管理人工智能参考框架中的其他角色来执行一个或多个功能,并维持人工智能系统的运行。

(5)安全、隐私、伦理安全、隐私、伦理覆盖了人工智能领域的其他4个主要角色,对每个角色都有重要的影响作用。同时,安全、隐私、伦理处于管理角色的覆盖范围之内,与全部角色和活动都建立了相关联系。在安全、隐私、伦理模块,需要通过不同的技术手段和安全措施,构筑全方位、立体的安全防护体系,保护人工智能领域参与者的安全和隐私。

(6)管理管理角色承担系统管理活动,包括软件调配、资源管理等内容,管理的功能是监视各种资源的运行状况,应对出现的性能或故障事件,使得各系统组件透明且可观。

(7)智能产品及行业应用智能产品及行业应用指人工智能系统的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防等。

3人工智能发展现状及趋势

依据参考框架中所涉及到的人工智能相关技术,本节重点介绍近二十年来人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。

3.1人工智能关键技术

3.1.1机器学习

机器学习(machineLearning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。

(1)根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

监督学习

监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

无监督学习

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

强化学习

强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

(2)根据学习方法可以将机器学习分为传统机器学习和深度学习。

传统机器学习

传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。

深度学习

深度学习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络(指层数超过3层的神经网络)。深度学习作为机器学习研究中的一个新兴领域,由Hinton等人于2006年提出。深度学习源于多层神经网络,其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产生了诸多深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆和反馈,常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架,一般包含主流的神经网络算法模型,提供稳定的深度学习api,支持训练模型在服务器和GpU、tpU间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有tensorFlow、Caffe/Caffe2、CntK、mXnet、paddle-paddle、torch/pytorch、theano等。

(3)此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。

迁移学习

迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效的学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等。

主动学习

主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识,通过较少的训练样本获得高性能的模型,最常用的策略是通过不确定性准则和差异性准则选取有效的样本。

演化学习

演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类,以及提供某种自适应机制以确定演化机制的影响等。

3.1.2知识图谱

知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。

知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。

3.1.3自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。

(1)机器翻译

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。

目前非限定领域机器翻译中性能较佳的一种是统计机器翻译,包括训练及解码两个阶段。训练阶段的目标是获得模型参数,解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络的运算,得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于短语的统计翻译相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。

(2)语义理解

语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着mCtest数据集的,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。

在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继提出,如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模,对答案的开始和终止位置进行预测,抽取出篇章片段。对于进一步泛化的答案,处理难度进一步提升,目前的语义理解技术仍有较大的提升空间。

(3)问答系统

问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。

自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。

3.1.4人机交互

人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。

(1)语音交互

语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。

(2)情感交互

情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。

(3)体感交互

体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。

(4)脑机交互

脑机交互又称为脑机接口,指不依赖于神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。

3.1.5计算机视觉

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

(1)计算成像学

计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。

(2)图像理解

图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、智慧安防、图像搜索等。

(3)三维视觉

三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为,浅层:角点、边缘、法向量等;中层:平面、立方体等;高层:物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

(4)动态视觉

动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。

(5)视频编解码

视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265、m-JpeG和mpeG系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时,重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。

目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。

3.1.6生物特征识别

生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。

生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。

(1)指纹识别指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。

(2)人脸识别人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识别技术相对成熟,在自由条件下人脸识别技术还在不断改进。

(3)虹膜识别虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理产生复杂形变,增加了匹配的难度。

(4)指静脉识别指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。

(5)声纹识别声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识别方法可以分为模板匹配法、概率模型法等。

(6)步态识别步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理算法,但步态识别具有远距离、跨角度、光照不敏感等优势。

3.1.7虚拟现实/增强现实

虚拟现实(VR)/增强现实(aR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。

虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。

目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。

3.1.8人工智能技术发展趋势

综上所述,人工智能技术在以下方面的发展有显著的特点,是进一步研究人工智能趋势的重点。

(1)技术平台开源化开源的学习框架在人工智能领域的研发成绩斐然,对深度学习领域影响巨大。开源的深度学习框架使得开发者可以直接使用已经研发成功的深度学习工具,减少二次开发,提高效率,促进业界紧密合作和交流。国内外产业巨头也纷纷意识到通过开源技术建立产业生态,是抢占产业制高点的重要手段。通过技术平台的开源化,可以扩大技术规模,整合技术和应用,有效布局人工智能全产业链。谷歌、百度等国内外龙头企业纷纷布局开源人工智能生态,未来将有更多的软硬件企业参与开源生态。

(2)专用智能向通用智能发展目前的人工智能发展主要集中在专用智能方面,具有领域局限性。随着科技的发展,各领域之间相互融合、相互影响,需要一种范围广、集成度高、适应能力强的通用智能,提供从辅助性决策工具到专业性解决方案的升级。通用人工智能具备执行一般智慧行为的能力,可以将人工智能与感知、知识、意识和直觉等人类的特征互相连接,减少对领域知识的依赖性、提高处理任务的普适性,这将是人工智能未来的发展方向。未来的人工智能将广泛的涵盖各个领域,消除各领域之间的应用壁垒。

(3)智能感知向智能认知方向迈进人工智能的主要发展阶段包括:运算智能、感知智能、认知智能,这一观点得到业界的广泛认可。早期阶段的人工智能是运算智能,机器具有快速计算和记忆存储能力。当前大数据时代的人工智能是感知智能,机器具有视觉、听觉、触觉等感知能力。随着类脑科技的发展,人工智能必然向认知智能时代迈进,即让机器能理解会思考。

3.2人工智能产业现状及趋势

人工智能作为新一轮产业变革的核心驱动力,将催生新的技术、产品、产业、业态、模式,从而引发经济结构的重大变革,实现社会生产力的整体提升。麦肯锡预计,到2025年全球人工智能应用市场规模总值将达到1270亿美元,人工智能将是众多智能产业发展的突破点。

通过对人工智能产业分布进行梳理,提出了人工智能产业生态图,主要分为核心业态、关联业态、衍生业态三个层次,如图3所示。

下面将重点对核心业态包含的智能基础设施建设、智能信息及数据、智能技术服务、智能产品四个方面展开介绍,并总结人工智能行业应用及产业发展趋势。

3.2.1智能基础设施

智能基础设施为人工智能产业提供计算能力支撑,其范围包括智能传感器、智能芯片、分布式计算框架等,是人工智能产业发展的重要保障。

(1)智能芯片

智能芯片从应用角度可以分为训练和推理两种类型。从部署场景来看,可以分为云端和设备端两步大类。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,需要庞大的计算规模,主要使用智能芯片集群来完成。与训练的计算量相比,推理的计算量较少,但仍然涉及大量的矩阵运算。目前,训练和推理通常都在云端实现,只有对实时性要求很高的设备会交由设备端进行处理。

按技术架构来看,智能芯片可以分为通用类芯片(CpU、GpU、FpGa)、基于FpGa的半定制化芯片、全定制化aSiC芯片、类脑计算芯片(iBmtruenorth)。另外,主要的人工智能处理器还有DpU、BpU、npU、epU等适用于不同场景和功能的人工智能芯片。

随着互联网用户量和数据规模的急剧膨胀,人工智能发展对计算性能的要求迫切增长,对CpU计算性能提升的需求超过了摩尔定律的增长速度。同时,受限于技术原因,传统处理器性能也无法按照摩尔定律继续增长,发展下一代智能芯片势在必行。未来的智能芯片主要是在两个方向发展:一是模仿人类大脑结构的芯片,二是量子芯片。智能芯片是人工智能时代的战略制高点,预计到2020年人工智能芯片全球市场规模将突破百亿美元。

(2)智能传感器

智能传感器是具有信息处理功能的传感器。智能传感器带有微处理机,具备采集、处理、交换信息等功能,是传感器集成化与微处理机相结合的产物。智能传感器属于人工智能的神经末梢,用于全面感知外界环境。各类传感器的大规模部署和应用为实现人工智能创造了不可或缺的条件。不同应用场景,如智能安防、智能家居、智能医疗等对传感器应用提出了不同的要求。未来,随着人工智能应用领域的不断拓展,市场对传感器的需求将不断增多,2020年市场规模有望突破4600亿美元。未来,高敏度、高精度、高可靠性、微型化、集成化将成为智能传感器发展的重要趋势。

(3)分布式计算框架

面对海量的数据处理、复杂的知识推理,常规的单机计算模式已经不能支撑。所以,计算模式必须将巨大的计算任务分成小的单机可以承受的计算任务,即云计算、边缘计算、大数据技术提供了基础的计算框架。目前流行的分布式计算框架如openStack、Hadoop、Storm、Spark、Samza、Bigflow等。各种开源深度学习框架也层出不穷,其中包括tensorFlow、Caffe、Keras、CntK、torch7、mXnet、Leaf、theano、DeepLearning4、Lasagne、neon等等。

3.2.2智能信息及数据

信息数据是人工智能创造价值的关键要素之一。我国庞大的人口和产业基数带来了数据方面的天生优势。随着算法、算力技术水平的提升,围绕数据的采集、分析、处理产生了众多的企业。目前,在人工智能数据采集、分析、处理方面的企业主要有两种:一种是数据集提供商,以提供数据为自身主要业务,为需求方提供机器学习等技术所需要的不同领域的数据集;另一种是数据采集、分析、处理综合性厂商,自身拥有获取数据的途径,并对采集到的数据进行分析处理,最终将处理后的结果提供给需求方进行使用。对于一些大型企业,企业本身也是数据分析处理结果的需求方。

3.2.3智能技术服务

智能技术服务主要关注如何构建人工智能的技术平台,并对外提供人工智能相关的服务。此类厂商在人工智能产业链中处于关键位置,依托基础设施和大量的数据,为各类人工智能的应用提供关键性的技术平台、解决方案和服务。目前,从提供服务的类型来看,提供技术服务厂商包括以下几类:

(1)提供人工智能的技术平台和算法模型。此类厂商主要针对用户或者行业需求,提供人工智能技术平台以及算法模型。用户可以在人工智能平台之上,通过一系列的算法模型来进行人工智能的应用开发。此类厂商主要关注人工智能的通用计算框架、算法模型、通用技术等关键领域。

(2)提供人工智能的整体解决方案。此类厂商主要针对用户或者行业需求,设计和提供包括软、硬件一体的行业人工智能解决方案,整体方案中集成多种人工智能算法模型以及软、硬件环境,帮助用户或行业解决特定的问题。此类厂商重点关注人工智能在特定领域或者特定行业的应用。

(3)提供人工智能在线服务。此类厂商一般为传统的云服务提供厂商,主要依托其已有的云计算和大数据应用的用户资源,聚集用户的需求和行业属性,为客户提供多类型的人工智能服务;从各类模型算法和计算框架的api等特定应用平台到特定行业的整体解决方案等,进一步吸引大量的用户使用,从而进一步完善其提供的人工智能服务。此类厂商主要提供相对通用的人工智能服务,同时也会关注一些重点行业和领域。

需要指出的是,上述三类角色并不是严格区分开的,很多情况下会出现重叠,随着技术的发展成熟,在人工智能产业链中已有大量的厂商同时具备上述两类或者三类角色的特征。

3.2.4智能产品

随着制造强国、网络强国、数字中国建设进程的加快,在制造、家居、金融、教育、交通、安防、医疗、物流等领域对人工智能技术和产品的需求将进一步释放,相关智能产品的种类和形态也将越来越丰富。

3.2.5人工智能行业应用

人工智能与行业领域的深度融合将改变甚至重新塑造传统行业,本节重点介绍人工智能在制造、家居、金融、交通、安防、医疗、物流行业的应用,由于篇幅有限,其它很多重要的行业应用在这里不展开论述。

(1)智能制造

智能制造是基于新一代信息通信技术与先进制造技术深度融合,贯穿于设计、生产、管理、服务等制造活动的各个环节,具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。智能制造对人工智能的需求主要表现在以下三个方面:一是智能装备,包括自动识别设备、人机交互系统、工业机器人以及数控机床等具体设备,涉及到跨媒体分析推理、自然语言处理、虚拟现实智能建模及自主无人系统等关键技术。二是智能工厂,包括智能设计、智能生产、智能管理以及集成优化等具体内容,涉及到跨媒体分析推理、大数据智能、机器学习等关键技术。三是智能服务,包括大规模个性化定制、远程运维以及预测性维护等具体服务模式,涉及到跨媒体分析推理、自然语言处理、大数据智能、高级机器学习等关键技术。例如,现有涉及智能装备故障问题的纸质化文件,可通过自然语言处理,形成数字化资料,再通过非结构化数据向结构化数据的转换,形成深度学习所需的训练数据,从而构建设备故障分析的神经网络,为下一步故障诊断、优化参数设置提供决策依据。

(2)智能家居

参照工业和信息化部印发的《智慧家庭综合标准化体系建设指南》,智能家居是智慧家庭八大应用场景之一。受产业环境、价格、消费者认可度等因素影响,我国智能家居行业经历了漫长的探索期。至2010年,随着物联网技术的发展以及智慧城市概念的出现,智能家居概念逐步有了清晰的定义并随之涌现出各类产品,软件系统也经历了若干轮升级。

智能家居以住宅为平台,基于物联网技术,由硬件(智能家电、智能硬件、安防控制设备、家具等)、软件系统、云计算平台构成的家居生态圈,实现人远程控制设备、设备间互联互通、设备自我学习等功能,并通过收集、分析用户行为数据为用户提供个性化生活服务,使家居生活安全、节能、便捷等。例如,借助智能语音技术,用户应用自然语言实现对家居系统各设备的操控,如开关窗帘(窗户)、操控家用电器和照明系统、打扫卫生等操作;借助机器学习技术,智能电视可以从用户看电视的历史数据中分析其兴趣和爱好,并将相关的节目推荐给用户。通过应用声纹识别、脸部识别、指纹识别等技术进行开锁等;通过大数据技术可以使智能家电实现对自身状态及环境的自我感知,具有故障诊断能力。通过收集产品运行数据,发现产品异常,主动提供服务,降低故障率。还可以通过大数据分析、远程监控和诊断,快速发现问题、解决问题及提高效率。

(3)智能金融

人工智能的飞速发展将对身处服务价值链高端的金融业带来深刻影响,人工智能逐步成为决定金融业沟通客户、发现客户金融需求的重要因素。人工智能技术在金融业中可以用于服务客户,支持授信、各类金融交易和金融分析中的决策,并用于风险防控和监督,将大幅改变金融现有格局,金融服务将会更加地个性化与智能化。智能金融对于金融机构的业务部门来说,可以帮助获客,精准服务客户,提高效率;对于金融机构的风控部门来说,可以提高风险控制,增加安全性;对于用户来说,可以实现资产优化配置,体验到金融机构更加完美地服务。人工智能在金融领域的应用主要包括:智能获客,依托大数据,对金融用户进行画像,通过需求响应模型,极大地提升获客效率;身份识别,以人工智能为内核,通过人脸识别、声纹识别、指静脉识别等生物识别手段,再加上各类票据、身份证、银行卡等证件票据的oCR识别等技术手段,对用户身份进行验证,大幅降低核验成本,有助于提高安全性;大数据风控,通过大数据、算力、算法的结合,搭建反欺诈、信用风险等模型,多维度控制金融机构的信用风险和操作风险,同时避免资产损失;智能投顾,基于大数据和算法能力,对用户与资产信息进行标签化,精准匹配用户与资产;智能客服,基于自然语言处理能力和语音识别能力,拓展客服领域的深度和广度,大幅降低服务成本,提升服务体验;金融云,依托云计算能力的金融科技,为金融机构提供更安全高效的全套金融解决方案。

(4)智能交通

智能交通系统(intelligenttrafficSystem,itS)是通信、信息和控制技术在交通系统中集成应用的产物。itS借助现代科技手段和设备,将各核心交通元素联通,实现信息互通与共享以及各交通元素的彼此协调、优化配置和高效使用,形成人、车和交通的一个高效协同环境,建立安全、高效、便捷和低碳的交通。例如通过交通信息采集系统采集道路中的车辆流量、行车速度等信息,信息分析处理系统处理后形成实时路况,决策系统据此调整道路红绿灯时长,调整可变车道或潮汐车道的通行方向等,通过信息系统将路况推送到导航软件和广播中,让人们合理规划行驶路线。通过不停车收费系统(etC),实现对通过etC入口站的车辆身份及信息自动采集、处理、收费和放行,有效提高通行能力、简化收费管理、降低环境污染。

itS应用最广泛的地区是日本,其次是美国、欧洲等地区。中国的智能交通系统近几年也发展迅速,在北京、上海、广州、杭州等大城市已经建设了先进的智能交通系统;其中,北京建立了道路交通控制、公共交通指挥与调度、高速公路管理和紧急事件管理等四大itS系统;广州建立了交通信息共用主平台、物流信息平台和静态交通管理系统等三大itS系统。

(5)智能安防

智能安防技术是一种利用人工智能对视频、图像进行存储和分析,从中识别安全隐患并对其进行处理的技术。智能安防与传统安防的最大区别在于智能化,传统安防对人的依赖性比较强,非常耗费人力,而智能安防能够通过机器实现智能判断,从而尽可能实现实时地安全防范和处理。

当前,高清视频、智能分析等技术的发展,使得安防从传统的被动防御向主动判断和预警发展,行业也从单一的安全领域向多行业应用发展,进而提升生产效率并提高生活智能化程度,为更多的行业和人群提供可视化及智能化方案。用户面对海量的视频数据,已无法简单利用人海战术进行检索和分析,需要采用人工智能技术作专家系统或辅助手段,实时分析视频内容,探测异常信息,进行风险预测。从技术方面来讲,目前国内智能安防分析技术主要集中在两大类:一类是采用画面分割前景提取等方法对视频画面中的目标进行提取检测,通过不同的规则来区分不同的事件,从而实现不同的判断并产生相应的报警联动等,例如:区域入侵分析、打架检测、人员聚集分析、交通事件检测等;另一类是利用模式识别技术,对画面中特定的物体进行建模,并通过大量样本进行训练,从而达到对视频画面中的特定物体进行识别,如车辆检测、人脸检测、人头检测(人流统计)等应用。

智能安防目前涵盖众多的领域,如街道社区、道路、楼宇建筑、机动车辆的监控,移动物体监测等。今后智能安防还要解决海量视频数据分析、存储控制及传输问题,将智能视频分析技术、云计算及云存储技术结合起来,构建智慧城市下的安防体系。

(6)智能医疗

人工智能的快速发展,为医疗健康领域向更高的智能化方向发展提供了非常有利的技术条件。近几年,智能医疗在辅助诊疗、疾病预测、医疗影像辅助诊断、药物开发等方面发挥重要作用。

在辅助诊疗方面,通过人工智能技术可以有效提高医护人员工作效率,提升一线全科医生的诊断治疗水平。如利用智能语音技术可以实现电子病历的智能语音录入;利用智能影像识别技术,可以实现医学图像自动读片;利用智能技术和大数据平台,构建辅助诊疗系统。

在疾病预测方面,人工智能借助大数据技术可以进行疫情监测,及时有效地预测并防止疫情的进一步扩散和发展。以流感为例,很多国家都有规定,当医生发现新型流感病例时需告知疾病控制与预防中心。但由于人们可能患病不及时就医,同时信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一定的延迟,人工智能通过疫情监测能够有效缩短响应时间。

在医疗影像辅助诊断方面,影像判读系统的发展是人工智能技术的产物。早期的影像判读系统主要靠人手工编写判定规则,存在耗时长、临床应用难度大等问题,从而未能得到广泛推广。影像组学是通过医学影像对特征进行提取和分析,为患者预前和预后的诊断和治疗提供评估方法和精准诊疗决策。这在很大程度上简化了人工智能技术的应用流程,节约了人力成本。

(7)智能物流

传统物流企业在利用条形码、射频识别技术、传感器、全球定位系统等方面优化改善运输、仓储、配送装卸等物流业基本活动,同时也在尝试使用智能搜索、推理规划、计算机视觉以及智能机器人等技术,实现货物运输过程的自动化运作和高效率优化管理,提高物流效率。例如,在仓储环节,利用大数据智能通过分析大量历史库存数据,建立相关预测模型,实现物流库存商品的动态调整。大数据智能也可以支撑商品配送规划,进而实现物流供给与需求匹配、物流资源优化与配置等。在货物搬运环节,加载计算机视觉、动态路径规划等技术的智能搬运机器人(如搬运机器人、货架穿梭车、分拣机器人等)得到广泛应用,大大减少了订单出库时间,使物流仓库的存储密度、搬运的速度、拣选的精度均有大幅度提升。

3.2.6人工智能产业发展趋势

从人工智能产业进程来看,技术突破是推动产业升级的核心驱动力。数据资源、运算能力、核心算法共同发展,掀起人工智能第三次新浪潮。人工智能产业正处于从感知智能向认知智能的进阶阶段,前者涉及的智能语音、计算机视觉及自然语言处理等技术,已具有大规模应用基础,但后者要求的“机器要像人一样去思考及主动行动”仍尚待突破,诸如无人驾驶、全自动智能机器人等仍处于开发中,与大规模应用仍有一定距离。

(1)智能服务呈现线下和线上的无缝结合

分布式计算平台的广泛部署和应用,增大了线上服务的应用范围。同时人工智能技术的发展和产品不断涌现,如智能家居、智能机器人、自动驾驶汽车等,为智能服务带来新的渠道或新的传播模式,使得线上服务与线下服务的融合进程加快,促进多产业升级。

(2)智能化应用场景从单一向多元发展

目前人工智能的应用领域还多处于专用阶段,如人脸识别、视频监控、语音识别等都主要用于完成具体任务,覆盖范围有限,产业化程度有待提高。随着智能家居、智慧物流等产品的推出,人工智能的应用终将进入面向复杂场景,处理复杂问题,提高社会生产效率和生活质量的新阶段。

(3)人工智能和实体经济深度融合进程将进一步加快

党的报告提出“推动互联网、大数据、人工智能和实体经济深度融合”,一方面,随着制造强国建设的加快将促进人工智能等新一代信息技术产品发展和应用,助推传统产业转型升级,推动战略性新兴产业实现整体性突破。另一方面,随着人工智能底层技术的开源化,传统行业将有望加快掌握人工智能基础技术并依托其积累的行业数据资源实现人工智能与实体经济的深度融合创新。

3.3安全、伦理、隐私问题

历史经验表明新技术常常能够提高生产效率,促进社会进步。但与此同时,由于人工智能尚处于初期发展阶段,该领域的安全、伦理、隐私的政策、法律和标准问题值得关注。就人工智能技术而言,安全、伦理和隐私问题直接影响人们与人工智能工具交互经验中对人工智能技术的信任。社会公众必须信任人工智能技术能够给人类带来的安全利益远大于伤害,才有可能发展人工智能。要保障安全,人工智能技术本身及在各个领域的应用应遵循人类社会所认同的伦理原则,其中应特别关注的是隐私问题,因为人工智能的发展伴随着越来越多的个人数据被记录和分析,而在这个过程中保障个人隐私则是社会信任能够增加的重要条件。总之,建立一个令人工智能技术造福于社会、保护公众利益的政策、法律和标准化环境,是人工智能技术持续、健康发展的重要前提。为此,本章集中讨论与人工智能技术相关的安全、伦理、隐私的政策和法律问题。

3.3.1人工智能的安全问题

人工智能最大的特征是能够实现无人类干预的,基于知识并能够自我修正地自动化运行。在开启人工智能系统后,人工智能系统的决策不再需要操控者进一步的指令,这种决策可能会产生人类预料不到的结果。设计者和生产者在开发人工智能产品的过程中可能并不能准确预知某一产品会存在的可能风险。因此,对于人工智能的安全问题不容忽视。

与传统的公共安全(例如核技术)需要强大的基础设施作为支撑不同,人工智能以计算机和互联网为依托,无需昂贵的基础设施就能造成安全威胁。掌握相关技术的人员可以在任何时间、地点且没有昂贵基础设施的情况下做出人工智能产品。人工智能的程序运行并非公开可追踪,其扩散途径和速度也难以精确控制。在无法利用已有传统管制技术的条件下,对人工智能技术的管制必须另辟蹊径。换言之,管制者必须考虑更为深层的伦理问题,保证人工智能技术及其应用均应符合伦理要求,才能真正实现保障公共安全的目的。

由于人工智能技术的目标实现受其初始设定的影响,必须能够保障人工智能设计的目标与大多数人类的利益和伦理道德一致,即使在决策过程中面对不同的环境,人工智能也能做出相对安全的决定。从人工智能的技术应用方面看,要充分考虑到人工智能开发和部署过程中的责任和过错问题,通过为人工智能技术开发者、产品生产者或者服务提供者、最终使用者设定权利和义务的具体内容,来达到落实安全保障要求的目的。

此外,考虑到目前世界各国关于人工智能管理的规定尚不统一,相关标准也处于空白状态,同一人工智能技术的参与者可能来自不同国家,而这些国家尚未签署针对人工智能的共有合约。为此,我国应加强国际合作,推动制定一套世界通用的管制原则和标准来保障人工智能技术的安全性。

3.3.2人工智能的伦理问题

人工智能是人类智能的延伸,也是人类价值系统的延伸。在其发展的过程中,应当包含对人类伦理价值的正确考量。设定人工智能技术的伦理要求,要依托于社会和公众对人工智能伦理的深入思考和广泛共识,并遵循一些共识原则:

一是人类利益原则,即人工智能应以实现人类利益为终极目标。这一原则体现对人权的尊重、对人类和自然环境利益最大化以及降低技术风险和对社会的负面影响。在此原则下,政策和法律应致力于人工智能发展的外部社会环境的构建,推动对社会个体的人工智能伦理和安全意识教育,让社会警惕人工智能技术被滥用的风险。此外,还应该警惕人工智能系统作出与伦理道德偏差的决策。例如,大学利用机器学习算法来评估入学申请,假如用于训练算法的历史入学数据(有意或无意)反映出之前的录取程序的某些偏差(如性别歧视),那么机器学习可能会在重复累计的运算过程中恶化这些偏差,造成恶性循环。如果没有纠正,偏差会以这种方式在社会中永久存在。

二是责任原则,即在技术开发和应用两方面都建立明确的责任体系,以便在技术层面可以对人工智能技术开发人员或部门问责,在应用层面可以建立合理的责任和赔偿体系。在责任原则下,在技术开发方面应遵循透明度原则;在技术应用方面则应当遵循权责一致原则。

其中,透明度原则要求了解系统的工作原理从而预测未来发展,即人类应当知道人工智能如何以及为何做出特定决定,这对于责任分配至关重要。例如,在神经网络这个人工智能的重要议题中,人们需要知道为什么会产生特定的输出结果。另外,数据来源透明度也同样非常重要。即便是在处理没有问题的数据集时,也有可能面临数据中隐含的偏见问题。透明度原则还要求开发技术时注意多个人工智能系统协作产生的危害。

权责一致原则,指的是未来政策和法律应该做出明确规定:一方面必要的商业数据应被合理记录、相应算法应受到监督、商业应用应受到合理审查;另一方面商业主体仍可利用合理的知识产权或者商业秘密来保护本企业的核心参数。在人工智能的应用领域,权利和责任一致的原则尚未在商界、政府对伦理的实践中完全实现。主要是由于在人工智能产品和服务的开发和生产过程中,工程师和设计团队往往忽视伦理问题,此外人工智能的整个行业尚未习惯于综合考量各个利益相关者需求的工作流程,人工智能相关企业对商业秘密的保护也未与透明度相平衡。

3.3.3人工智能的隐私问题

人工智能的近期发展是建立在大量数据的信息技术应用之上,不可避免地涉及到个人信息的合理使用问题,因此对于隐私应该有明确且可操作的定义。人工智能技术的发展也让侵犯个人隐私(的行为)更为便利,因此相关法律和标准应该为个人隐私提供更强有力的保护。已有的对隐私信息的管制包括对使用者未明示同意的收集,以及使用者明示同意条件下的个人信息收集两种类型的处理。人工智能技术的发展对原有的管制框架带来了新的挑战,原因是使用者所同意的个人信息收集范围不再有确定的界限。利用人工智能技术很容易推导出公民不愿意泄露的隐私,例如从公共数据中推导出私人信息,从个人信息中推导出和个人有关的其他人员(如朋友、亲人、同事)信息(在线行为、人际关系等)。这类信息超出了最初个人同意披露的个人信息范围。

此外,人工智能技术的发展使得政府对于公民个人数据信息的收集和使用更加便利。大量个人数据信息能够帮助政府各个部门更好地了解所服务的人群状态,确保个性化服务的机会和质量。但随之而来的是,政府部门和政府工作人员个人不恰当使用个人数据信息的风险和潜在的危害应当得到足够的重视。

人工智能语境下的个人数据的获取和知情同意应该重新进行定义。首先,相关政策、法律和标准应直接对数据的收集和使用进行规制,而不能仅仅征得数据所有者的同意;其次,应当建立实用、可执行的、适应于不同使用场景的标准流程以供设计者和开发者保护数据来源的隐私;再次,对于利用人工智能可能推导出超过公民最初同意披露的信息的行为应该进行规制。最后,政策、法律和标准对于个人数据管理应该采取延伸式保护,鼓励发展相关技术,探索将算法工具作为个体在数字和现实世界中的人。这种方式使得控制和使用两者得以共存,因为算法人可以根据不同的情况,设定不同的使用权限,同时管理个人同意与拒绝分享的信息。

本章节所涉及的安全、伦理和隐私问题是人工智能发展面临的挑战。安全问题是让技术能够持续发展的前提。技术的发展给社会信任带来了风险,如何增加社会信任,让技术发展遵循伦理要求,特别是保障隐私不会被侵犯是亟需解决的问题。为此,需要(制订)合理的政策、法律、标准基础,并与国际社会协作。在制订政策、法律和标准时,应当摆脱肤浅的新闻炒作和广告式的热点宣传,必须促进对人工智能技术产品更深层地理解,聚焦这一新技术给社会产生重大利益的同时也带来的巨大挑战。作为国际社会的重要成员,中国对保障人工智能技术应用在正确的道路上、基于正确的理由得到健康发展担负重要的责任。

3.4人工智能标准化的重要作用

当今,经济全球化和市场国际化深入发展,标准作为经济和社会活动的主要技术依据,已成为衡量国家或地区技术发展水平的重要标志、产品进入市场的基本准则、企业市场竞争力的具体体现。标准化工作对人工智能及其产业发展具有基础性、支撑性、引领性的作用,既是推动产业创新发展的关键抓手,也是产业竞争的制高点。人工智能标准的先进与完善与否,关系到产业的健康发展、以及产品国际市场竞争力的强弱。

美国、欧盟、日本等发达国家高度重视人工智能标准化工作。美国的《国家人工智能研究与发展策略规划》,欧盟的“人脑计划”,日本实施的“人工智能/大数据/物联网/网络安全综合项目”,均提出围绕核心技术、顶尖人才、标准规范等强化部署,力图抢占新一轮科技主导权。我国高度重视人工智能标准化工作。在国务院《新一代人工智能发展规划》中将人工智能标准化作为重要支撑保障,提出要“加强人工智能标准框架体系研究。坚持安全性、可用性、互操作性、可追溯性原则,逐步建立并完善人工智能基础共性、互联互通、行业应用、网络安全、隐私保护等技术标准。加快推动无人驾驶、服务机器人等细分应用领域的行业协会和联盟制定相关标准”。工信部在《促进新一代人工智能产业发展三年行动计划(2018-2020年)》中指出,要建设人工智能产业标准规范体系,建立并完善基础共性、互联互通、安全隐私、行业应用等技术标准;同时构建人工智能产品评估评测体系。

我国虽然在人工智能领域虽然具备了良好基础,语音识别、视觉识别、中文信息处理等核心技术实现了突破,也具有巨大的应用市场环境,但整体发展水平仍落后于发达国家,在核心算法、关键设备、高端芯片、重大产品与系统等方面差距较大,适应人工智能发展的基础设施、政策法规、标准体系亟待完善。

综上分析,更应重视人工智能标准化工作对于促进技术创新、支撑产业发展具有的重要引领作用:

(一)标准化工作有利于加快人工智能技术创新和成果转化。现阶段人工智能技术发展迅速,市场上逐步出现了可规模化、可商业化的产品和应用,需要以标准化的手段固化技术成果,实现快速创新推广;

(二)标准化工作有助于提升人工智能产品和服务质量。如市场上出现的人脸识别系统、智能音箱、服务机器人等产品,质量残次不齐,需要标准的统一规范,并配合以开展符合性测试评估的方式,提升产品和服务质量;

(三)标准化工作有助于切实保障用户安全。例如自动驾驶领域的“电车难题”伦理难题、苹果手机指纹泄露用户隐私等问题,引起了人们的广泛关注。如何保护用户权益是难点也是重点,这需要通过建立以人为本的原则,制定相关安全标准规范,确保智能系统遵从并服务于人类伦理,并确保信息安全;

计算机视觉的基本任务篇9

关键词:多媒体教学;多媒体技术;计算机技术;心理学;教育

多媒体教学的发展,与其技术的发展有直接关系。在一些相关论著中,学者们更多的是对多媒体教学技术的论述,强调的是技术,而很少涉及学习者和教育者这样的“人的因素”。虽然对多媒体教学技术的研究是不可缺少的,但是探索多媒体教学的心理机制和教育基础则更为重要,因为人类是以完全不同的方式来加工多媒体教学的。只有这样,才能在多媒体教学中考虑学习者和教育者的主体性。

一、多媒体教学技术及其计算机基础

多媒体与多媒体技术应视为同义词。关于多媒体技术的特点虽然还没有形成共识,但是,也有一些基本的共同之处。早在1996年,吴炜煜先生在《多媒体世界》撰文提出了多媒体五大特点:1.将不同的媒体数据都表示成统一的结构码流;2.实行新的技术标准体制,以适应系统级集成和规范相关产品的性能指标;3.建设“全球信息高速公路”;4.应用“双向性设计”,统一信息提供者、接受者和控制者的关系;5.赋予信息系统对客观世界信息的自然模拟与处理能力。[1]华中师范大学傅德荣教授认为,多媒体特点主要有:1.整合性,通过计算机实现多种单媒体的整合;2.数字化,将各种单媒体变换成数字信息,读入计算机进行统一的整合,数字化技术是多媒体技术的一种基本技术;3.交互性,交互成多媒体系统;4.超媒体,是一种网状式的结构形式。[2]3黄孝建先生主编的《多媒体技术》一书指出,“多媒体技术是一种能同时综合处理多种信息,在信息之间建立逻辑联系,使其集成为一个交互式系统的技术。”“多媒体的关键性在于信息载体的多样性、交互性和集成性。这也是多媒体技术研究中必须解决的主要问题……多媒体系统一般具备如下功能:捕捉、操作、编辑、存储、呈现和通信,为用户服务。”[3]

根据以上关于多媒体技术的几种观点,我们认为,多媒体技术主要有5个特点:一是整合性。多媒体实时地综合,把文本、图形图像、声音、动画以及视频这些媒体中组成两种或两种以上的结合体,为的是借鉴各种媒体的优势,形成一种在功能上更加完善的体系。二是集成化。多媒体表示的并不单纯是信息的多样性,而是通过多种媒体表现、多种感官认知、多种仪器设备、多学科汇聚、多领域应用等交互作用,集成信息码流、设备控制、人与客观现实关系的一体化。三是多维式。多媒体是趋于人性化的多维信息处理系统,目标是要尽可能实现让人类在现实生活的自然环境下,保持信息交流的高保真效果、通信带宽和交互控制能力。四是数字化。多媒体具备数字化处理系统,其信息是一种数字化的信息,其信息结构是一种超媒体的网状式结构,所以高速宽带网络支持多媒体通讯和资源共享,建造全景化虚拟世界数据库成为现实。五是分布式。目前,多媒体技术正朝着分布式的方向发展。分布式多媒体是一门综合性技术,它集计算机的交互性、网络的分布性和多媒体信息的综合性于一身,突破了计算机、通信等传统产业间相对各自独立发展的界限,是计算机和通信领域的一次革命;分布式多媒体的发展涉及两个关键性的技术问题,一个是多媒体网络技术,网络的频宽、信息的交换方式及网络的高层协作,这直接决定着网络质量;另一个是数据压缩技术,使信息量巨大的多媒体数据、特别是视频和声频数据得以在网络上传输;分布式多媒体向社会提供全新的信息服务,使用户不但可以选择播放的节目以及内容,而且还可利用此系统得到诸如咨询、交流等信息服务。多媒体教学正是在上述5个技术特点的基础上实施的,这些技术特点,为我们提供了教学领域内各种综合性的信息服务,并帮助地理位置不同、时间安排不同的用户,克服各种障碍来共同完成教学任务。由此可以看出,在对多媒体教学技术及其计算机基础的理解中,我们不仅要重视计算机的技术,而且也要关注人与机器的关系、人性化的系统和用户至上的观念。

多媒体并不是多媒体计算机的代名词。多媒体计算机只是多媒体的一个特例。[4]它既有计算机的显著特性,又有多媒体的功能,所以学校进行多媒体教学时,通常以多媒体计算机为载体。然而,多媒体计算机仅仅是多媒体系统中的一个分系统,因此,它常常被认为是多媒体中的一个典范,或者说是多媒体的一种狭义的范畴。

多媒体教学为什么要应用多媒体计算机?计算机虽然也是单一的媒体,但它同电视、音响的不同之处就在于它具有强大的扩展性。就目前的科技水平来说,只要在计算机内加上适当的部件,就多了相应的媒体功能,对于多媒体教学来说,非常简便、经济,更重要的是它还能“胜任”多媒体教学的功能,是不可多得的优质的技术设备,必然被学校广泛应用。多媒体计算机正在以我们无法想象的速度发展。其主要作用是让计算机的使用和操作更加接近于人们的日常生活,使人们在日常生活中用各种各样的媒体交换信息。如使用纸张、广播和电视交换新闻、消息和知识。多媒体计算机技术可以使家用电脑用声音媒体、光学媒体和动画媒体来交换信息,它在教育中有着广泛前景。在多媒体教学中,它主要通过文字、声音、图形图像以及视频与动画这4个方面媒体的形式呈现出教学软件,掌握这四方面媒体的制作,成为制作多媒体教学软件的基本技能基础。

二、多媒体教学技术及其心理基础

从媒体技术的基础来分析,多媒体教学技术离不开视觉媒体技术、听觉媒体技术和触觉媒体技术等。多媒体信息是这些媒体信息数字化后整合而成的,如前所述,数字化技术是多媒体技术的基础技术。在数字化的过程中,各种单媒体有各种不同的国际标准,然而,如果重视“感觉通道说”[5],那么就要在探讨这几个方面的媒体技术问题的同时,必须揭示使用者(尤其是学习者)的感觉、知觉的心理机制,特别是人的视觉和听觉特征。

多媒体教学技术的出现扩展了人们用视觉模式呈现材料的具体途径。视觉材料包括文本信息、图形图像信息、视频信息。这些信息通过视觉媒体技术数字化后整合为多媒体信息。在这个过程中,我们对其技术上要作四点说明:第一,视觉媒体是一个非常复杂的信息系统。文本信息是文字信息的集合,它既是一种符号系统,又具有颜色、大小和种类等特征;图形是点、线、面、体等信号的集合,以面为例,不仅指一般的平面图,还包括曲线、地图、设计图等;图像是静止图像和活动图像的集合,所谓视频信息就是活动或运动的图像信息,它由一系列时间轴(周期)呈现的画面构成。第二,视觉媒体信息的数字化是根据上述各种视觉媒体信息的特征进行的。不管是文本信息还是图形信息,它们的数字化都是各自按编码的国际标准完成的。第三,视觉媒体的各种信息根据不同信号实现数字化。静止图像是一种二维信号,先要经过扫描转换成一维信号,再经过采样、量化、编码实现数字化;活动图像的视频按一幅一幅的静止图像以一定周期展示,每一幅的数字化方法与静止图像类似。第四,视觉媒体信息处理是一种按照物理学原理进行的技术。它们都是利用光电和电光转换原理,把光学图像转换为电信号进行处理后再还原为光图像。

为了使

多媒体教学技术的视觉材料更容易被学习者所接受,就必须要顾及人的视觉心理基础,也就是说,上述视觉媒体技术只有通过视觉心理机制才能实现多媒体教学的目标。这里,我们也要强调四点:第一,多媒体技术要考虑光的物理三属性所引起的视觉的三种心理机制。视觉的刺激是光,光是电磁波,电磁波的范围很广,而人可见的电磁波只占电磁波的一小部分。波长不同,会使我们在视觉上产生色调的差别,从而产生不同的色觉。色觉不仅取决于由波长所引起的色调,还和主观感觉的明度和饱和度有关。明度是对光波强度(振幅)的反应,饱和度则由物体发射或反射的光的纯度来决定。所以,多媒体教学技术在视觉媒体设计上要处理好可见视觉、色调、明度和饱和度这几方面的关系。第二,多媒体教学技术要考虑对感光物质的视觉感受器心理机制。视觉感受器的真正感光器官是视网膜上的一些细胞,其中锥状细胞感觉颜色,棒状细胞感觉明度,这两种细胞中感光物质的化学性质不同,光使这些物质分解,色素被漂白,从而刺激了感受细胞的膜,引起神经冲动。所以,多媒体教学技术在视觉媒体设计上要研究这两种感光物质的化学性质。第三,多媒体教学技术要考虑视觉过程,即眼睛看东西是一个编码过程,视网膜上的不同感受野在视觉中枢有不同的神经细胞,各有其功能,不同的细胞对所刺激信息系统的不同特征分别反应,并像计算机那样编码,这种编码实际是对一些图像的辨认。所以,多媒体教学技术在视觉媒体设计上要利用好视觉感受野与信息的特征。第四,多媒体教学技术要考虑各类视觉现象,特别是决定视力高低的视角、强弱光下的适应、视觉后暂留的后像、不同背景的视觉对比、不同明度下对不同光波长的感受性等等造成视觉的各种差异。所以,多媒体教学技术在视觉媒体设计上要运用各类视觉现象产生的规律。在多媒体教学技术中,视听是紧紧地联系在一起的。在计算机环境下,眼睛知觉动画图像,耳朵则知觉解说语言;在演讲的情境中,视觉通道加工投影仪上幻灯片的内容,听觉通道则加工演讲者的声音。听觉材料主要是声音,包括语言信息、音乐信息和效果声信息。这些信息通过听觉媒体技术上数字化后整合为多媒体信息。在这一过程中,我们从技术角度作如下三点说明:第一,声音信息尽管是一种一维的模拟信号,它可以通过采样、量化、码字分配实现数字化,但它比文本信息的数据量要大,通常采用呈现声音和声音合成技术。第二,声波是起源于发声体的振动,在弹性媒质中传播的是一种机械波。它在气体或液体媒质中传播的是纵波,在固体媒质中传播的则是纵波、横波或两者的复合。声音信号有时域特征、频域特征和声色与失真特征。第三,声频或音频是人耳可闻的振动频率,频率范围每秒钟约为20-20000次(赫兹),声频信息数字化后其数据速率大、保真度好和动态范围大。当然,对于不同类型的声频信号,其信号带宽是不同的,电话、调幅广播、调频广播和激光唱盘等的声频信号是有较大区别的。随着声频数字化的发展,压缩编码技术是多媒体教学技术的关键之一。

要使多媒体教学技术的听觉材料被学习者更容易接受,也必须顾及人的听觉心理基础。这里,我们仅作两点分析:第一,多媒体教学技术要考虑声音的物理三属性所引起的听觉的三个特征。正像光有三种物理属性一样,声音也有三种属性,即振动的频率、振幅的大小、基音与陪音的倍数配合关系,以及所产生的听觉的音调(或因高)、音强(或响度)和音色的三个特征。人对不同音调的感受性是有差别的,尽管声频在20-20000Hz范围,但声频为1000-4000Hz之间音调感受性较好(即阈限较低),这是由于耳膜神经纤维承担的振动频率所决定的。测量音强的方法以分贝(dB)为单位,这是物理学与心理学都认可的,即两个声音之间的强度比率为1∶1.26(1分贝),因为1.26是能清楚辨别出两个声音振幅大小的区别。人的音色是由基音和陪音的不同比例的配合决定的。在音调和音强相同的情况下,人们之所以能够分辨出是哪种琴所演奏的曲子,正是由于不同琴的基本振动(基音)与分段振动(陪音)的比例是不一样的,这种比例成整数倍数为乐音,不成整数倍数则为噪音。所以,多媒体教学技术在听觉媒体设计上要利用好音调、音强和音色的三个特征。第二,多媒体教学技术要考虑听觉的感受野。因为听觉神经细胞是有分工的,研究指出,听觉中枢神经细胞有40%只反应噪音而不反应乐音,另外60%的神经细胞对乐音的反应也有分工。[6]冲动频可以出现在声音的出现时,可以出现在声音消失之后,也可以出现在声音出现和消失的一刹那;可以在声频降低时发生变化,也可以在声频升高时发生变化。一句话,听东西也是一个编码的过程,即在听觉的范围内也会有视觉中那种感受野的情况。由此可见,听东西绝不是简单的录音,听觉过程是有分工的,是一个侦察器在那里侦察。所以,多媒体教学技术在听觉媒体设计上要揭示听觉感受野,以及反应乐音与噪音信息的特征。

由此可见,我们在分析多媒体教学的相关技术的同时,也要注意学习者的心理基础,因为学习者是以特有的心理活动的方式来加工视觉和听觉等媒体信息的。

三、多媒体教学技术及其教育基础

在教育中应用多媒体技术,首先是多媒体教学软件的开发,此外,创作工具和虚拟现实等技术也在教育中应用。每一种技术既为教育服务,又有其教育的需要和基础。由于教育对象是人,所以在教育中不管怎样去应用多媒体技术,都要体现每一种技术为人服务,并把学习者和教育者的要求作为出发点。

多媒体教学软件是为教育制作的以计算机为基础的教育应用软件,它包括计算机辅助教学软件、计算机管理教学软件以及应用于教育的图标统计类等的实用软件,其中多媒体教学软件是核心技术。多媒体教学软件的开发,是一项对视觉媒体、听觉媒体和触觉媒体数据加以分析、处理和编辑的过程,这个过程包括两个环节,即设计和制作。在多媒体教学软件的开发设计中,有一个编写稿本的重要技术。傅德荣教授在《多媒体技术以及教育应用》

一书中设专章论述这个问题。他指出,“稿本是表示多媒体教学软件内部结构的各种文档的总和。它是一种多媒体文档。编写稿本的实质是多媒体教学软件的设计”。[2]230这个设计包括三个方面:一是总本设计,涉及内容结构分析、开发策略、超媒体的结构框图和制作原理等;二是详细设计,设计超媒体结构设计、人机界面设计、学习流程设计和框面设计;三是媒体数据设计、涉及静止图像数据设计、视频图像数据设计,动画数据设计和声音数据设计。稿本编写体现出工作的计划和制作的蓝图;成功的稿本编写是多媒体教学软件开发成功的一半,多媒体教学软件就是根据稿本进行制作的。与此同时,多媒体化的教学设计把活动分为三种类型,有课堂型、课外型和知识扩展型。多媒体教学软件设计要从教学实际出发,根据这三种教学模型编制教学软件,前两种属于课程软件,后一种属于参考软件。多媒体教学软件的制作,既需要有多媒体计算机等硬件环境,又需要有多个媒体数据整合而成的软件环境。在制作中,有一个立项、写本、编辑、加工、整合等开发流程;要使用某种算法语言和各种工具的两种方法,强调坚持教育性、可调节性、因材施教和非结构化教材等原则;制作成果是课件,也就是说,是有关课程某一部分内容的多媒体教学材料(包括教科书、参考书、录音带、录像带、幻灯片、影片等),是专为教学活动设计的计算机软件(包括用于控制和进行教育活动的程序,帮助开发、维护程序的文档资料,帮助教师和学生使用程序学习的课本和练习册等)。多媒体教学软件的开发,体现了多媒体技术是计算机教育的最佳手段。因为多媒体教学软件形式丰富多彩、趣味性强,符合学生心理特点;形象直观、生动、活泼,易于理解;有着丰富的教学资源,特别是和国际联网,以获取最新资料;改革教学模式,呈现交互式的教育方式;体积小、分量轻的光盘能容纳庞大的信息等等。多媒体教学软件的开发尽管有一些妨碍教师主导作用的负面影响,但它是各级各类学校教学的需要。现代教育对学习者记忆与学习的要求、师生互动组合方式的要求、个别化教学与因材施教的要求、不同教学环境、不同教学模式的要求等,这些都为多媒体教学软件开发奠定了教育基础。

多媒体创作工具是指能够集成处理和统一管理文本、图形、静态图像、视频影像、动画、声音等多媒体信息,使之能够根据用户的需要生成多媒体应用软件的编辑工具。当前,多媒体创作工具的种类归纳起来主要有以下三种类型:一是交互式流线或图标编辑控制型,编辑人员按照脚本的要求将选定的不同类型的图标根据需要一一放置于流线上进行编辑。二是描述式页控制型,将多媒体素材根据需要编辑在一幅画面之中形成一页书,再将页与页之间按一定的调用关系联系起来以形成一本书的概念,不同页之间根据需要交互性地呈现即形成多媒体应用软件。三是时间流程型,这类工具在编辑信息时显示出较强的时间前后顺序,即时间流程(timeLine),主要用来编制一些简报类的程序。编制一个优秀的教育软件,我们需要了解诸如软件的使用体、运行环境等问题。其中关系到软件成败的一个重要因素是要了解创作工具的特点,这样,才可根据需要有目的地进行选择。多媒体创作工具与其他工具软件相比,具有以下特点:1.操作简便,易于入门;2.强大的集成性开发环境;3.开发周期的缩短是软件得以投入运作的最好方式;4.具有极大的扩充功能。在软件的制作中创作人员一般都追求一种极大的时效比,也就是在较短的时间内,用较少的原程序求得较好的效果、较高的质量、亮丽的界面和较低的运作环境。因此,如何从众多的多媒体创作工具中选择符合自己最满意的多媒体创作系统,直接关系到以上所罗列的各种要求。一般来讲,选择多媒体创作工具时应从以下几个方面进行考虑:对创作人员,要求其个人能力与经验;对多媒体创作工具运行的环境,我们以pC机的环境作为标准。此外,maC多媒体系统是一种多媒体的典范;由于多媒体教学软件有诸如教育型、演示型、娱乐型、百科全书型等不同类型,因此,对创作工具的选择要求根据具体需要考虑选取不同的类型。因为不同的多媒体创作工具其适用范围是不一样的。综上所述,现在教育系统使用多媒体教学技术,其质量是受多媒体创作过程影响的。目前,为满足大、中、小学制作多媒体教学软件的需求,在制作软件时需按要求选取适当的创作工具,提高制作人员的业务素质,才能做出质量较高的教育软件。

虚拟现实是一种人和计算机接口的技术,亦称“灵境技术”。它是利用计算机生成一种高度逼真的、模拟人在现实世界中进行视、听、动等行为的虚拟世界。虚拟现实不仅能够展示现实世界的各种现象,而且还能实现现实世界难以实现的特征。虚拟现实通过多种传感设备,使人有很好的临场感,产生身临其境的体验。虚拟现实技术实现人与虚拟环境的自然交互,实现对虚拟系统的自主控制,实现感知的现实、操作的现实和运动的现实所构成的三要素。这里要强调传感设备。它有显示和呈现视听感知现实的立体头盔等设备;有输入人体对虚拟现实操作行为的数据手套等设备;有通过合成和传递方式实现运动现实的计算机模拟等设备。这些传感设备,既有穿戴在人体上的装置,又有设置于现实环境中的传感器,如摄像机、声响设备、远程传感设备等。虚拟现实尽管经费昂贵且有一定实验的危险性等,但作为多媒体教学的一种技术,它在丰富学习环境、为学生扩大知识信息、提高实践能力、增强创造才华等方面还是有教育价值的。虚拟现实的出现,是教学训练、特别是复杂技能和特殊专业训练以及教学评价的需要。如果有条件,教师也可以使用。不少现代教育,如建工、医学、航空、航天等专业的教学,若采用虚拟现实技术,对提高教学教育质量会有很大的帮助。所有这一切,都为虚拟现实技术奠定了教育基础。

[参考文献]

[1]吴炜煜.多媒体技术导论[J].多媒体世界,1996(1):11-13.

[2]傅德荣.多媒体技术及其教育应用[m].北京:高等教育出版社,2003:3.

[3]黄孝建.多媒体技术[m].北京:北京邮电大学出版社,2000:2.

[4]林众,冯瑞琴.计算机与智力心理学[m].杭州:浙江人民出版社,1997:289.

计算机视觉的基本任务篇10

认知科学是研究人类认知的本质及规律,揭示人类心智奥秘的科学。它的研究范围包括知觉、注意、记忆、动作、语言、推理、思考乃至意识在内的各个层次和方面的人类的认知活动。认知科学是建立在心理学、计算机科学、神经科学、人类学、语言学、哲学共同关心的交界面上,即为解释、理解、表达、计算人类乃至机器的智能的共同兴趣上,涌现出来的高度跨学科的新兴科学。

2认知科学的起源及发展

2.1认知科学的起源认知科学起源于古代,基本上以思辨式的研究为主。从20世纪30年代开始,一批有远见卓识的科学家就已经开始了认知科学的基础研究,1973年,美国心理学家朗盖特第一次在论文中使用“认知科学(CognitiveScience)”一词。1977年,著名的认知科学研究领域的权威期刊《CognitiveSci-ence》创刊。1979年,在著名的斯隆基金会的资助下,由心理学、语言学、计算机科学和哲学界著名的学者SchankR、Collinsa、normanD等人发起,联合其他学科对认知进行深入研究,一些著名的学者在加州共同成立了美国认知科学协会,并将权威期刊《CognitiveScience》确定为认知科学学会会刊。美国认知科学协会的成立标志着认知科学的诞生[9]。从此以后,世界各国的名牌大学及科研院所纷纷成立认知科学的研究中心或研究所,并创刊了一批具有国际影响力的认知科学学术期刊,如《Cognitivepsychology》、《Cognition》、《Cognitiveneuroscience》。上述种种努力,使得认知科学得到了迅速的发展,并逐渐成为世界各国争相发展的前沿学科[10]。

2.2认知科学的发展在认知科学近60年的发展历程中,其主要指导理论在发生着变化,因此我们可以按照主要指导理论将认知科学的发展分为以下三个不同的发展阶段。

2.2.1计算理论阶段约为20世纪40年代到50年代末,这一阶段认知科学的研究主要是基于“认知即计算”这一经典理论而展开的。其代表人物为丘奇(Church)、图灵、冯•诺伊曼。美国数学家丘奇最早在他的论文《初等数论中的一个不可解问题》中,提出了人类的认知和其它任何具有输入输出关系的函数一样,都是可定义可计算的;图灵在其著名的“图灵机”和“图灵测试”中,进一步表达了对认知和智力的理解,他认为认知和智力的任何一种状态都是图灵机的某一种状态,认知和智力的任何活动都是图灵机定义的可以表达的、可以一步一步地机械实现的“计算”;冯•诺伊曼在“冯•诺伊曼体系结构计算机”中,将人类的大脑思维模拟为中央处理器对一系列指令序列的处理,而将人类记忆的认知信息和学习技能模拟为存储器中存储的数据和程序,将接受信息和改造世界模拟为输入/输出,从而将认知统一在“计算机”这一认知模拟器中,其中心思想仍然是中央处理器对指令的计算。

2.2.2符号处理理论阶段从20世纪50年代末到80年代初期,这一阶段认知科学的研究主要基于“认知是对符号的计算机处理”的理论,又被称为“计算机处理经典符号阶段”,因为它和当时逐渐发展起来的计算机科学紧密相关。符号处理理论实际上是“认知即计算”理论的延伸和拓展。既然认知是计算,所以它一定是个信息处理系统,并将描述认知的基本单元定义为“符号”;而不同的认知活动都可以模拟为一个计算机程序;因此,人类的认知就是计算机程序对符号的一系列处理,包括输入符号、输出符号、存储符号、复制符号、建立符号结构及条件性转移,从而实现智能。艾伦•纽维尔和赫伯特•西蒙是这个阶段认知科学研究的杰出代表,他们将任何可被人类感觉器官感知、智能系统分辨、认知功能实现的有意义的认知模式,如图像、声音、文字、语言、意识等,都编码为物理符号,而将人类的某个认知活动模拟为一个计算机程序。基于这种思想,他们合作开发了最早的模拟人类认知的启发式程序“逻辑理论家(Logictheorist)”,并在著名的“达特茅斯会议”上,引起认知科学研究领域的极大轰动。他们进一步研究人类认知中求解难题的共同思维规律,开发出能够求解11种难题的著名计算机程序“通用问题求解器(GeneralproblemsSolver)”,从而将符号处理阶段的认知科学的研究发展到了一个顶峰。

2.2.3多理论阶段从20世纪70年代到今天,三种主要的指导理论引领着认知科学的发展,它们分别是人工神经网络理论、模块理论、环境作用理论。“人工神经网络理论”又称“联结主义理论”,该理论把人类的认知模拟为多个人工神经元所组成的神经网络来处理信息,是一种信息处理系统,信息是交互作用的人工神经元的激活模式,信息并不存在于特定的神经元中,而是存在于神经网络的联结中或权重里,通过调整权重就可以改变网络的联结关系并进而改变网络的功能。“模块理论”由福德(Forder)首次提出,受计算机硬件和软件中的模块化思想影响,福德认为人类认知的主体—大脑,在结构及功能上实际都可以划分为若干个高度专业化并相对独立的认知模块,这些模块的结合及相互作用实现了人类的认知功能。因此,认知科学研究的重点应该是大脑功能模块的划分及相互作用机制的研究。“环境作用理论”认为,认知科学的研究不应该仅仅局限在表达(Represention)和推理(Reason-ing)等认知方法和理论的研究中,还应该从系统的角度来研究,尤其注重认知体所在的环境及现场对认知的影响。人类的认知不只是认知个体大脑的思维活动,还取决于环境,发生在个体与环境的交互作用之中。这方面研究的代表人物是mit的Brooks教授,他的《没有表达的智能》、《没有推理的智能》等一系列的论文,强调了认知体与环境交互作用对认知的重大影响,并以研究成果“人造昆虫”将这一理论推到了高峰[13]。

3认知科学的学科结构及研究方向

3.1认知科学的学科结构当前,国际上公认的认知科学的学科结构如图2所示,它是基于美国科学家pylyshynZ提出的六角形认知科学学科结构图,分布在六角形六个顶点的是心理学、计算机科学、神经科学、语言学、人类学、哲学六大核心支撑学科,体现了认知科学是上述六大核心支撑学科共同关注的交界面[14]。这六大核心支撑学科之间互相交叉,又产生出11个新兴交叉学科,分别是控制论、神经语言学、神经心理学、认知过程仿真、计算语言学、心理语言学、心理哲学、语言哲学、人类学语言学、认知人类学、脑进化。

3.2认知科学的研究方向当前,认知科学的研究方向主要集中在与计算机科学相关的认知模型、大脑存储模型及认知计算的研究上。4.2.1认知模型认知模型是指模拟人类认知,从而人工构建出的认知对象、认知架构、认知模拟的统一体。考虑到认知科学研究的巨大复杂性,研究认知科学往往摒弃认知的许多表象,而将认知的实质简化在一个认知模型(Cognitivemodel)中,并通过对认知模型的研究来发现认知的本质及其规律。

3.2.2大脑存储模型大脑存储模型是指仿生人类大脑的存储机制而构造出的人工存储模型。人类的大脑是迄今为止已知的最复杂、最合理、最高效的存储系统。模拟大脑的存储机制构建一个大脑存储模型,以这个大脑存储模型为研究对象进行大脑存储的深入研究,不但可以解决以真正大脑为研究对象进行研究面临的诸多生理和伦理困难,而且可以以一个全新的角度提出大脑存储研究的科学理论和方法,并将这些理论和方法应用于人造存储系统的实践中。因此,大脑存储模型的研究有着很高的理论水平和应用价值。

3.2.3认知计算认知计算(CognitiveComputation)是指仿生人类在认知过程中,对所有认知数据连续进行处理时所采用的全部算法。借助于认知计算,我们不但可以将外部世界纷繁复杂的信息进行量化、融合、转达,而且还可以把人类的认知机制建模在一个适合认知科学研究的认知模型中,开展认知实验,记录认知数据,计算认知性能指标,发现认知的本质和规律,并最终构建一个具有人类认知功能的“认知机”。

4认知模型的相关研究

4.1符号主义认知模型符号主义认知模型是最传统的认知模型,它的认知对象是符号。符号主义认知模型主要思想是把认知当成对理性符号的处理,借助于不同的产生式规则,对符号进行替换运算。产生式规则被描述成“条件———动作”形式,它模仿了人类在推理和解决问题对应不同条件执行的相应动作。符号主义认知模型的主要代表是newella提出的状态算子和结果模型SoaR(StateoperatorandResult)、andersonJK提出的思维适应性控制模型aCt(adaptiveControlofthought)。SoaR是围绕着算子的选择和应用功能来组织产生式规则,其高层结构由控制策略、成果记忆区和工作记忆区组成。基于上述思想的SoaR实现了短时记忆的功能,并且很好地使概念、事实、规则有机结合在一起。aCt模拟人类高级认知过程的产生式规则,产生式规则系统由三个记忆部分组成:工作记忆、陈述性记忆和产生式记忆。产生式规则既可以由工作记忆根据现场情况临时产生,也可以是陈述性记忆存储的以往的产生式规则,还可以是产生式记忆中推理出的新的产生式规则。aCt实现了长期记忆的功能,较好地体现了认知过程中“从做中学”的思想。

4.2联结主义认知模型联结主义认知模型是一个巨大的信息节点交互网络,各节点与其他每个节点之间相互联结、相互影响,它的认知对象是在这个网络中传递的信息。联结主义认知模型模拟了人类的思维过程,具有自学习和自适应的能力。联结主义的典型代表是mcClelland等人创立的平行分配过程模型pDp(parallelDistributedprocessing),又称人工神经网络。pDp模拟了人类的神经网络,其特色在于信息的分布式存储和并行协同处理。虽然单个节点的结构极其简单,功能有限,但大量节点构成的网络系统所能实现的功能却很强大。

4.3脑逻辑认知模型脑逻辑认知模型是模拟大脑的认知机制而非生理解剖结构建立起来的认知模型,该模型包括思维引擎、记忆体和感知及动作缓存机制,力图研究记忆的意识对认知行为的影响。该方面的研究尤其以Calgary大学的wangYing-xu教授最为有名,wangYing-xu教授及其团队自2003年至2011年,连续发表了多篇论文,详细阐述了脑逻辑认知模型对人类认知的模拟、脑逻辑认知模型中如何实现认知中数据、信息、知识和行为间的关联。脑逻辑认知模型为计算机模拟自然智能行为和认知方法建立了基础[21]。国内学者提出的基于粒计算的认知模型和机制主义模型同样属于脑逻辑认知模型。

4.4认知模型的最新研究———一元事件认知模型一元事件认知模型如图3所示。

4.4.1一元事件认知模型的基本概念(1)认知元。认知的基本单位是认知元,以小写字母x、y、z等表示。及所在行的清晰度等属性值。(4)任务。任务记作j={r}k,是一个不完整的一元事件描述。(5)方法。方法是任务中缺省的必元或结元,是完成任务后输出的结果。

4.4.2一元事件认知模型的特征(1)本能。本能是一元事件认知模型各功能机构本身固有的操作序列,在满足一定的外部和内部条件时被触发执行。(2)hlt。hlt是一元事件认知模型的各功能机构的一种暂停状态,此时,它暂停一切操作,等待该功能机构某种本能被触发。(3)box。一元事件认知模型内部的各功能机构内都存在着一定数量的box,作为存放数据的中间存储单元。

4.4.3认知流程将按时间先后串行作用于一元事件认知模型上的一元事件、认识、任务定义为一个认知流程,如图4所示即是一个认知流程例子。5.4.4认知性能指标(1)成功率:认知模型到某一时刻止,完成的任务占提交的任务总数的比例,记作η。(2)潜能:认知模型到某一时刻止,能够完成的所有任务的总数,记作pl。(3)水平:某一时刻,记忆体的水平即为认知模型的水平,记作l。(4)认知量:认知模型在某一时刻,已经存储在记忆体中的认识总量,记作q。(5)认知率:认知模型在某一时刻之前,认知量和感悟及接受的认识总量之比,记作a。5.4.5一元事件认知模型的研究结论文献[22]认为,理想的认知模型随着认知流程的延续,各个认识的属性值呈动态变化,完成任务能够改变记忆体中存储的认识,而认知指标的变化则与记忆体容量的变化线性相关。图5a和图5b分别是一元事件认知模型中对应图4的认知流程实验,在容量c=19时,t9和t15两个不同的时刻,记忆体存储的认识属性变化情况。其中,认识y4的范数由1变化为3,单元数由2变化为8,复杂度由3变化为17,而全部认识y1、y2、y3、y4、y5、y6所在行的清晰度由6、3、5、4、2、1改变为0、4、5、1、3、2;而完成任务的前后,即t9和t15两个不同的时刻,记忆体中存储的认识由6个减少为5个。可见,一元事件认知模型中,随着认知流程的延续,各个认识的属性值都呈动态变化,而完成任务改变了记忆体中存储的认识。表1为在t9时刻和t15时刻,容量c变化时一元事件认知模型认知指标的对应变化。从表1中可以看出,不同时刻,当记忆体的容量c增大时,各项认知指标都相应增大,而当容量Figure5Cognitionstoredinmemorybankatt9andt15图5t9时刻和t15时刻记忆体中存储的认识减小时,各项认知指标又相应地减小。如认知指标潜能pl,当记忆体的容量c从10增加到19时,潜能pl从20增加到40,而当记忆体的容量c从21减小到19时,潜能pl从44减小到40。可见,认知指标的变化与记忆体容量的变化线性相关。更多的认知流程实验在一元事件认知模型上的结果和图5a、图5b及表1的结果相似,因此综合以上论述,可知一元事件认知模型是一种理想的认知模型。

5大脑存储模型的相关研究

5.1基于神经科学的大脑存储模型基于神经科学的大脑存储模型认为大脑存储认知信息的最小解剖单位是神经元细胞。大脑左右两个半球的表面是一层平均厚度约2.5mm的大脑皮层,由150亿个左右的神经元细胞构成,是认知信息存储的主要场所。大量的大脑皮层损伤病例及通过去除大脑皮层的某个区域或对大脑皮层的某个区域给予适当的物理刺激(如电流刺激)发现,大脑皮层的不同物理区域存储不同的认知信息。最新的研究发现,位于大脑前部的额叶(Fron-talLobe)区域存储与人类智能及运动有关的认知信息,位于大脑上部的顶叶(parietalLobe)区域存储与人类的感觉、知觉及语言有关的信息,位于大脑后部的枕叶(occipitalLobe)区域存储与人类视觉有关的信息,而位于大脑中部的颞叶(tempo-ralLobe)区域则存储与人类听觉、嗅觉有关的信息。籍此,基于神经科学的大脑存储模型认为大脑的存储机制是将不同性质的认知信息在不同的大脑皮层区域分类存储。

5.2基于神经影像学的大脑存储模型基于神经影像学的大脑存储模型利用现代神经影像学技术,对人类认知活动产生的认知信息存储在大脑的物理位置进行定位,对大脑对认知信息的响应强度进行测量,对存储认知信息时脑区各部分之间相互关联的变化进行观察,从而建立对应的大脑存储模型。这些神经影像学技术包括直接测量与脑神经活动直接相关的生物电磁场变化信号的弥散张量成像Dti(Diffusiontensorimaging)、脑磁图meG(magnetoencephalography)、脑电图eeG(electroencephalography)和事件相关电位(eRps)等技术,以及间接测量脑神经活动引起的血液动力学变化信号的单光子发射计算层析成像(SpeCt)、正电子发射层析成像(pet)和功能磁共振成像fmRi(functionalmagneticResonanceimage)等技术。其中,功能磁共振成像fmRi是在磁共振成像(mRi)技术的基础上发展起来的进行脑功能成像的新技术,可无创伤地对神经元活动进行比较准确的定位,并具有比较高的空间和时间分辨率及较好的可重复性,通过脑血流、葡萄糖代谢和受体的观察,依据血氧水平依赖性BoLD(BloodoxygenLevelDependent)脑功能成像方法,得到优质的fmRi图像,借助于先进的fmRi图像处理和分析技术,可以更精确地确定各脑功能区以及其内部构造和功能特点,尤其是脑的存储认知信息情况,因此成为目前最先进的大脑存储模型研究手段之一。基于上述的fmRi技术,人们发现了大脑存储认知信息的更精细结构。对短时间内需要存储和操作的信息—即工作记忆,大脑皮层会分配不同的区域存储不同类型的信息或作为操作的临时存储区。如词语工作记忆中信息是存储在左半球后顶叶皮质区(Ba40),而词语工作记忆进行复述时,由左半球Broca区(Ba44)、左前运动区(Ba6)以及左辅助运动区(Ba6)作为临时存储区;而空间工作记忆中的信息是存储在脑右半球一些脑区,包括右枕前皮质(Ba19)、右前运动区(Ba6)以及右脑前额叶腹侧(Ba47);视觉工作记忆信息主要存储在左半球的顶叶和颞叶下部。对长时间内需要存储和操作的信息———长时记忆,大脑皮层也有相应的存储区域。如长时记忆的情景记忆信息是存储在左额叶、颞叶内侧和顶枕区,长时记忆的语义记忆信息存储在左侧前额叶和颞叶的左侧颞中回(Ba21)和双侧颞顶区(Ba37)[27]。fmRi研究还表明,某个大脑皮层区域存储对应类型的信息不是绝对的,在某些情况下(如另外一个大脑皮层区域被切除)它可以代偿存储另外一个大脑皮层区域应该存储的认知信息;进一步的研究还发现,内颞叶体积的缩小与长时记忆中的提取成功率减少有关,而随着人类年龄的增加,内颞叶体积有逐渐减小的趋势,这也解释了老年人相对于年轻人记忆力减退的原因[28]。

5.3基于心理学的大脑存储模型基于心理学的大脑存储模型把大脑当作一个黑箱,通过给被试提供不同的视觉素材、听觉素材及对应的记忆规则,研究被试在该记忆规则下对输入信息的记忆效果,从而把大脑黑箱还原成一个存储认知信息的存储模型。这些不同的视觉素材、听觉素材及对应的记忆规则构成了不同的研究人类大脑存储模型的心理学实验。其中经典的实验有posner视觉信息编码实验、Clark和Chase句子-图画匹配实验、Sternberg短时记忆信息相加因素法实验、字母转换实验(“开窗”实验)、peterson和peterson遗忘进程实验、waugh和norman分开痕迹消退与干扰实验、四卡片证真和证伪等一系列心理学实验[29]。通过这一系列的实验,心理学家在关于大脑的存储模型上得出以下的共识:即大脑的存储模型是以Baddeley三成分模型为框架的泛工作记忆模型。Baddeley三成分模型是Baddeley等人最早提出的,他们认为刺激人类认知的信息被分为三种不同的成分,分别存储到大脑中不同功能的存储区中。其中,直接刺激人类感觉器官产生的视觉、听觉等认知信息被称为工作记忆信息,它们暂时存储在大脑的工作记忆区中,如果这些信息不被人类的认知进行处理,则这些信息很快就会从工作记忆区中消失,所以,工作记忆信息又被称为短时记忆信息;当工作记忆信息被人类的认知有意识地进行了一次处理,则生成的信息称为陈述性记忆信息,被存储在陈述性记忆区。而当工作记忆信息被人类的认知有意识地进行了重复的处理,则生成的信息称为程序性记忆信息,被存储在程序性记忆区内;程序性记忆信息存储在大脑中的时间最长,因此又被称为长时记忆信息,而陈述性记忆信息存储在大脑中的时间介于工作记忆信息和程序性记忆信息之间。心理学后续的关于大脑存储模型的研究扩展了工作记忆信息、陈述性记忆信息、程序性记忆信息的内涵和外延,但都基于工作记忆信息,所以统称为泛工作记忆模型。

5.4基于语言学的大脑存储模型语言是人类特有的信息交流与存储方式,人类的语言功能受大脑皮层的语言中枢控制,与大脑的关系极其复杂。很多语言学家从人类语言的组成单位及组织规则的角度,映射大脑对应的存储模型。elissa等人认为,人类语言的组成单位有音节、词语、短语、句子、段落、篇章,它们都具有声学特征或语义特征,人类语言的组织规则是由小的语言组成单位分层递归地组合建构成较大的语言组成单位,正是不同的组织规则才构成了人类不同的语言。音节是最小的语言组成单位,音节的个数是有限的,人类大脑生来就具有识别和控制发出音节的神经元组织,即对音节的掌握是人类大脑的本能;由小的音节组合建构成大的词语,是后天训练学习的结果,这个训练学习的方式或程序构成了人类语言的第一层组织规则,并被牢牢地存储在大脑皮层中;依次类推,由词语构成短语,由短语构成句子,由句子构成段落,由段落构成篇章都是后天训练学习的结果,这些训练学习的方式或程序被作为人类语言不同层次的组织规则,相继存储在大脑皮层中。因此,基于语言学的大脑存储模型认为语言是不同层次的组织规则(程序)在本能音节(数据)上的运行结果(输出),大脑中存储的是语言的组织规则而非语言本身,任一层次组织规则的改变都可以改变语言本身,但处于较低层次的组织规则的改变对语言的改变影响更大。这种存储模型得到很多语言学家的支持。

6认知计算的相关研究

6.4基于脑电信号的认知计算基于脑电(eeG)信号的认知计算是设计一组认知实验,记录被试对应认知实验中不同认知活动的脑电信号,并通过对脑电信号的计算、分析,提取不同的认知活动对应的脑电信号特征。常见的认知实验有图片刺激实验、数字运算实验、规则提取实验等。被试一般经过挑选,文化程度较高且头发不太浓密的短发成年男性是首选。实验中,被试佩戴电极导数适中(如64导、128导)的电极帽,按要求完成认知实验中的任务。实验过程中生成的脑电信号被与电极帽相连的放大器放大,再经降噪、过滤、采样、a/D转换,最终生成特定格式的文件如.cnt文件,作为基于脑电信号的认知计算的原始数据存储在pC机中。认知计算继续对存储在pC机中的脑电信号的原始数据进行处理。去除坏样本是计算的第一步,比如发生严重漂移的eGa信号或明显的肌电、眼电信号。接着是根据脑电信号对不同认知活动进行特征提取,共空间模式CSp(CommonSpa-tialpattern)是最新的从多导的脑电信号中提取某种认知活动脑电信号特征的有效算法。该算法将某种认知活动对应的脑电信号进行标记,作为Ⅰ类,而把其它的所有信号进行标记,作为Ⅱ类。CSp通过对两类的脑电信号进行训练,得到一个投影矩阵p,p能将两类数据投影到方差区别最大的方向,从而去除了Ⅱ类信号的干扰,突出了Ⅰ类信号的特征。设V是包含两类信号的原始脑电信号,而Z是经过投影之后得到的可供特征提取及分类的脑电信号,则Z=pV。取a=(p-1)t,a的每一行向量被称为一个空间模式。CSp的关键是求解投影矩阵p,设供训练的输入脑电信号是一个K×t的矩阵,其中K是脑电数据的导数,t是数据的样本点数,X1是Ⅰ类带标记的训练数据,X2是Ⅱ类带标记的训练数据,X1的协方差矩阵为。

6.2基于功能磁共振(fmRi)数据的认知计算基于fmRi数据的认知计算分为三个步骤:认知活动实验、图像采集、数据分析。认知活动实验同样需要精心设计,所不同的是,为了提高fmRi图像中BLoD信号的信噪比,同一种认知活动的实验需要重复多次,重复的时间间隔称为刺激时间模式,常用的刺激时间模式有组块设计BD(BlockDesign)和事件相关设计eD(e-vent-relatedDesign)。图像采集包括fmRi图像采集和解剖图像采集两部分。fmRi图像通过采用特定的成像序列扫描而获得,扫描与实验同步进行;由于fmRi图像的分辨率和信噪比不高,还需要扫描一幅与fm-Ri图像位置完全相同的高分辨率解剖图像,从而把fmRi图像得到的脑区激活信息对应到相应的解剖位置上,解剖图像一般采用3D图像或t1解剖结构图像。数据分析包括对采集的图像数据进行预处理及计算,以确定不同认知活动对应的解剖脑区。预处理一般包括层间时间校正、头动校正、标准化、平滑等;计算包括原始fmRi图像重建、转换成标准格式、fmRi图像层面时间校正和运动校正、fmRi图像的时间域滤波、fmRi图像的空间平滑、去除头皮外伪影、时间序列时间点数据的标准化、空间归一化或标准化、统计、激活脑区与解剖位置对应等。很多新开发的软件已经能够完成fmRi数据分析的某些功能,如美国wisconxin医学院生物物理研究所研制的anFi、Friston等人开发的Spm、美国匹兹堡大学CCn实验室(ClinicalCog-nitiveneurosciencelaboratory)开发的niS、商业fmRi数据分析软件BrainVoyage等。

6.3基于视听觉信息的认知计算基于视听觉信息的认知计算将认知定义为大脑对视听觉信息的计算,它的认知数据就是被人类直接感知和理解的一组图像、语音和文本(语言)等信息。认知计算的目标是从人类的视听觉认知机理出发,研究并构建新的计算模型与计算方法,提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率,克服图像、语音和文本(语言)信息处理所面临的瓶颈困难。认知计算主要解决感知特征提取、表达与整合,感知数据的机器学习与理解,多模态信息协同计算等核心科学问题。目前,基于视听觉信息的认知计算已经在视听觉信息协同计算、自然语言理解以及与视听觉认知相关的人脑―计算机接口等三项关键技术方面取得一定的突破,Google公司已经研制成功集成上述相关研究成果、具有自然环境感知与智能行为决策能力的无人驾驶车辆,并成功地在加州的公路上行驶了20万公里。

7结束语