首页范文大全简述多媒体技术的特征十篇简述多媒体技术的特征十篇

简述多媒体技术的特征十篇

发布时间:2024-04-26 02:28:08

简述多媒体技术的特征篇1

关键词:舞台美术;叙事转向;新媒体

“后戏剧时代”的演出生态正走向以“表演为中心”的发展趋势,戏剧演艺及舞台美术在“新媒体”时代背景下,出现了许多新的演出语汇和艺术形态。新媒体技术推动了舞台美术的表现力,其功能也超越了过去对剧本的简单读解,而转向了更为主动的叙事设计。舞台美术正越来越多地扮演着“视觉导演”的角色。

1舞台美术在新艺术生态中扮演的角色

20世纪以来,西方表演艺术从亚洲和非洲艺术中汲取了养分,欧美戏剧理论逐渐脱离了“剧本倾向”,取而代之的是以“表演”为转向的后戏剧时代,更多超越剧场的表演艺术比比皆是。传统的戏剧语境、戏剧观念、戏剧要素概念和定义几乎被颠覆。戏剧理论中的关于艺术与技术、时间与空间、文本与图像、舞美与导演、观众与演员等相关问题需要重新定位。后戏剧时代的舞台美术类型越来越宽泛,新的戏剧生态中的舞台美术超越了对剧本的简单读解,扮演了越来越多的导演角色,叙事的转向成为当代舞美设计的主要特征,舞台美术叙事也是一种对文化理解的方式。

另一方面,舞台美术作为视觉艺术中一个分支,与国际新媒体艺术发展观念是同步的。20世纪初,照相术的发明,架上绘画的传统权威被打破,达达主义、未来主义、偶发艺术等现代美术思潮逐渐替了架上绘画,这些先锋艺术流派越来越关注观众在艺术创作中的中心作用。20世纪60年代,随着信息技术的发展,出现了录像艺术、数字艺术、网络交互艺术等基于计算机网络平台的新媒介艺术,它与计算机科学、生物科学、表演学科紧密联系,各种媒介之间的碰撞,转换出了众多跨界的新艺术类型。行为、绘画、建筑、动画、电影、装置甚至手机、无人飞机都将成为舞台美术表现的元素。舞台美术融合了当代所有视觉艺术的新观念、新材料和新方法,站在了当代视觉艺术实验的前沿。

2舞台美术创意的叙事转向

说故事是人类最基本的情感需求,也是一种文化再创造的行为,自20世纪90年代以来,说故事的概念广泛被运用于各种文化实践活动中。讲故事的策略研究早已成为设计、美术等视觉艺术创作的方法和手段。当前,包括舞台美术在内的视觉叙事研究受到了学界的高度重视。

舞台美术是以图像传播为核心的视觉叙事艺术,图像叙事的文本形态改变是由传播技术进步带来的。总体来说,可以分为静态图像叙事和动态系列图像叙事两类,这两种叙事文本有着各自由不同的表述机制。舞台美术、雕塑、设计等视觉文本比较特殊,不像小说或电影等叙事文本结构那样清晰,有时叙述的是一种观念、时尚和文脉。图像的符号能所与指相互漂移,叙事的建构必须要依靠观众的上下文语境去补充。多个符号以一个主题预设形成符号形态的因果关联并富有意义,这样的象征性设计才具有叙事性。舞台美术叙事是叙述主体通过参与的戏剧事件组织在一个特定时空和意义向度的设计符号文本中。事件(信息)传达的语境足够刺激和唤起受述者的记忆和联想,从而产生连续的心理感受完成对物的综合体验。

纵观世界舞台美术发展史,从古希腊背景、透视舞台、条屏布景、投影拼贴到今天的各种新媒体演艺探索。作为戏剧的重要组成部分,舞台美术在营造舞台气氛、塑造人物形象上起到了核心作用。戏剧叙事的呈现需要依靠舞台视觉空间的调度,导演通过舞台上的灯光、服装、道具、布景的迁换完成戏剧文本的视觉阐释。新媒体互动技术为舞台叙述提供了更为多元的视觉表述方式,影像叙事从表层融入舞台叙事的内在动因中。舞台布景的调度和转换更为流畅和自然,多样化的戏剧类型使得舞台美术表现出超越传统的物质设计,全息摄影、增强虚拟技术等数字技术让舞台美术发挥了传统设计无法达到的艺术想象力,舞台美术作为戏剧故事空间的作者,在戏剧演出中扮演着越来越主动的叙述者角色。

3新媒体时代背景下的舞台美术叙事特征

随着信息技术时代的来临,媒体技术日新月异,各类动作捕捉技术、增强现实技术、maX系统、可穿戴技术、实时交互软件不断涌现,为当代舞台美术叙事表现提供了更为广阔的表达空间。新媒体技术与艺术实验解放了舞台空间,舞台美术叙事风格呈现出简洁化、交互体验化的特征。

(1)舞台美术叙事空间的简洁化。新媒体技术广泛使用使得舞台美术风格简洁化得以实现,多媒体技术的使用极大地解放了舞台空间,降低了制作成本。无论是对戏剧故事环境空间的体现,还是叙事空间视觉调度的造型美,新媒体成为叙事媒体转换过程中的剂。20世纪80年代,黄佐临先生提出的“写意戏剧观”影响了像徐晓钟、田沁鑫等老一辈导演的艺术创作观,中国传统艺术的虚实相生的空灵美学在中国戏剧舞台上广泛应用。今天,新媒体技术实验把这些传统美学推向了极致。中央戏剧学院刘杏林教授在北昆《牡丹亭》的舞台美术中,大胆提取园林象征元素,用半壁太湖石、牡丹亭、印章、勾栏等几个代表性象征符号,这些系列符号序列消解了园林具象的物质性,却赋予其精神性的梦的空间。舞台新媒体投影技术实现了“画里画外”的多框架叙事模式,舞台整体风格清新、简洁却有丰富的精神内涵。

(2)舞台美术叙事空间的交互体验。交互体验是新媒体戏剧叙事的又一特征,也是一种特有的观众体验方式。所谓的交互体验简单地来说是戏剧叙事更关注观众的参与,着眼于将故事空间、叙事空间、观众心理之间形成传播信息的互动效应,观众、演员、舞台美术、导演成为戏剧叙事的共同叙述者。目前舞台交互技术主要分为四种体验方式:实景式体验(如《印象・刘三姐》)、互动式体验(如《极限震撼》)、沉浸式体验(如《马克・努比的预言显现》)、多感官体验(如《宛如水中的鱼》)等。例如,上海戏剧学院出品的新媒体舞蹈《极境》,利用红外线追踪装置,实现了演员与背景的互动,还利用KineCt体感捕捉技术,让舞蹈动作与背景中的企鹅等极地动物形象形成逻辑映射,这种互动技术表达了极地科考队员与自然和谐共生的景象。

简述多媒体技术的特征篇2

关键词:基于内容图像检索关键技术

1.引言

随着多媒体和计算机网络技术的迅速发展,多媒体信息的数据量正在以惊人的速度增长。面对日益庞大的数据信息,如何更加有效地分类、管理、维护和利用是多媒体数据挖掘中亟待解决的问题。多媒体数据挖掘中的研究的热点之一就是对图像的检索。目前主要有两种方式的检索:(1)基于描述的检索系统;(2)基于内容的检索系统。

传统的图像检索方法是基于文本的(text-BasedimageRetrieval,简写为tBiR)。这种技术是对图像建立关键词等文本描述信息,以解释图像的内容。然后使用关系数据库结构化查询语句来对关键字进行检索。因此,对图像的检索变成了对关键字的查找,这种方法简单易行,但是随着图像的数量与日俱增,以及图像数据来源的日益广泛,以下两个缺点就更加凸显。首先,文本描述难以充分表达图像的丰富内容。文本描述是一种定性的描述,描述能力有限,图像中则往往含有大量需要定量描述的信息。而且许多图像的特征难以用文本描述表达,如图像中的不规则形状、散布的纹理等就很难用文本来描述。基于文本的图像检索难以实现基于图像视觉特征和空间关系的相似性检索。其次,文本描述是非常主观的,不同的人对同一幅图像数据可能有不同的理解,因此当用户在查询时输入的关键词和数据库中的关键词不一致或这些关键词根本就不存在时,将导致查询失败。最后,随着图像数量的日益增多,人工标注或添加信息效率较低,并且一旦标注信息建立就不便于更新,难以满足海量环境下多媒体信息库的检索要求。为了克服基于文本检索方法的局限性,20世纪90年代出现了基于内容的图像检索技术,这种技术对图像的内容,融合了图像理解技术,可以提供更加有效的检索途径。

2.基于内容的图像检索系统组成

基于内容的图像检索(CBiR,Content-BasedimageRetrieval),是指直接采用图像内容进行图像信息查询的检索,在建立图像库时,对输入的图像先进行图像分析,提取图像的特征向量,并在将输入图像存入图像库的同时将其对应的特征向量也存入相应的特征库。在进行图像检索时,对每一幅给定的查询图,进行图像分析并提取该图的特征向量。通过将该图像特征向量与特征库中的特征向量进行匹配并根据匹配结果到图像库中搜索就可提取出所需要的检索图来。随着图像特征理论的逐渐完善,人们认识到图像检索系统的用户主观性及视觉特征与语义特征难以匹配的问题,开始把用户看作检索系统的一部分,将文本检索中的相关反馈技术引入到基于内容的图像检索中。

图像的特征提取、图像特征索引技术、图像相似度度量、相关的反馈机制是研究开发基于CBiR的图像检索系统的四种关键技术,也是解决检索问题和提高检索效率的关键。

2.1图像特征的提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。图像的视觉特征分为通用的视觉特征和领域相关的视觉特征。前者描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状,后者建立在对所描述图像内容的某些先验知识(或假设)基础上,与具体的应用紧密有关,如人的面部特征或指纹特征等。

2.1.1颜色特征作为图像最直观最明显的特征,已经得到广泛的应用,其主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的检索性。图像颜色特征的表达涉及如下三个方面的问题:一是选择一个合适的颜色空间;二是将颜色特征量化为向量形式;三是定义一种相似度(距离)标准用来度量不同图像之间在颜色上的相似性。

恰当的颜色空间的选择是实现基于颜色特征的图像检索的基础。常见的有RGB颜色空间和HSV颜色空间。一般情况下获取的图像都是在RGB空间描述的,但是RGB空间结构并不符合人们对颜色相似性的主观判断。而HSV颜色空间由色调(H)、饱和度(S)、亮度(V)三个分量组成。与人眼的视觉特性比较接近,从人的心理感知来说,HSV空间要比RGB空间更直观、更容易接受。因此,为了更符合人眼的视觉特征,我们经常需要做颜色空间的转换,将RGB颜色空间转换为HSV颜色空间。

表示图像颜色特征最简单的方法是颜色直方图方法。它所描述的是不同色彩在整幅图像中所占的比例。它仅仅表示了图像中各种颜色的统计分布,两幅内容完全不同的图像,也可能有相同的颜色直方图,所以不能够反映出同一色彩在空间分布的不同,因而造成空间信息的丢失。所以这种方法只适合描述那些不需要考虑物体空间位置的图像。

颜色在空间上的不同分布极大地影响了人们对图像的相似性判断。有人提出了以图像颜色聚合矢量CCV(ColorCoherence、Vector)作为图像的特征,它是图像直方图的一种演变,其核心思想是将图像中在感知上颜色相似的像素所占据的连续区域的面积大于一定的阐值时,该区域中的像素为聚合像素,否则为不聚合像素,这样统计图像所包含的每种颜色的聚合像素和不聚合像素的比率为图像的聚合矢量,聚合矢量中的聚合信息在某种程度上保留了图像颜色的空间信息。此方法旨在克服颜色直方图无法表达图像色彩空间位置的缺陷。

2.1.2纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。纹理特征包含了物体表面结构组织排列的重要信息,以及它们与周围环境的联系。用户可通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像。从人类的感知经验出发,纹理特征主要有粗糙性、方向性和对比度。

2.1.3形状特征是图像的另一个显著特征,也是刻画物体最本质的特征。形状特征也是最难提取和描述的图像特征之一。在基于形状的图像检索中有三个问题需要解决。第一,形状通常与图像中的特定目标对象有关,因此形状比颜色和纹理的语义性更强,要获得目标的形状参数,先要进行图像分割,所以形状特性会受到图像分割效果的影响。如果图像分割的准确性比较差,那么检索结果的准确率就较低,对分割效果很差的图像,形状参数甚至无法提取。第二,描述目标的形状是一个非常复杂的问题,人对形状的感觉是视网膜感受和现实世界的知识相结合的结果。事实上,目前还没有找到与人的主观感觉相一致的形状模型。第三,从不同的视角获得的形状可能会有很大差别,为了准确进行形状匹配,需要解决平移、缩放、旋转中的不变性问题。目前,提取方法主要有两大类:基于边界的形状特征提取和基于区域的形状特征提取。一般来说,两种提取方法相互结合,相互影响。通过单一的颜色特征来实现图像检索的方法通用性差,检索效果也不好。因此有人提出一种将颜色与形状相结合的新的检索方法,是将图像分割成为若干子区域,提取每一子区域的颜色特征,然后存储每一区域的颜色特征以支持图像检索。

2.2图像特征索引的建立

色彩、纹理和形状等图像特征被提取出来后,形成了特征向量,就可以用这个特征向量来表示对应的图像。在图像检索中,判断图像之间是否相似是通过比较这些特征向量是否相似来进行的。也就是,把图像特征向量之间的比较看成是图像相似度比较。但由于从图像中提取的颜色、纹理、形状等特征都是多维的,不能很好地适应传统的索引结构,通常在建立一个有效索引之前先采用降维的方法减少索引维数。目前常用的降维技术主要有两种:KLt和列间聚类。其中有一点特别要注意,降维要适度,如果盲目降维到必要维数以下,则会丢失部分图像特征,从而使图像失真,影响检索效果。所以降维后需要再利用一种多维索引技术,以确保检索能真实顺利地进行。R树是目前常用的一种空间数据索引方法,并且广泛应用于空间及多维数据库中,其主要原理是让聚集在一起的空间对象尽可能早地组合在一起。

2.3图像相似度的度量

图像相似度是指人们对图像内容的认识上(即语义)的差异,使通过计算查询样图和候选图像之间在视觉特征上存在的距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配,放入检索结果中。相似性度量方法是在图像检索过程中用于计算两幅图像之间的相似度,但是没有一个是在任何情况下都可以使用的,因为其具有特征依赖性的特点,不同的特征应该采用不同的度量方法。一个好的比较算法对图像检索结果有很大的影响。常用的比较算法有欧拉距离、直方图交、二次式距离和马氏距离等。这些相似度匹配函数都是基于向量空间模型的。

3.基于内容的图像检索技术的国内外研究概况

尽管当前对基于内容的图像检索技术的研究还不是很成熟,但是作为商业软件包的图像检索系统已经问世。这些系统的框架和查询的处理过程很相似,只是采用的特征和搜索的方法各具特色,性能也有所差异。例如Virage是由Virage公司开发的基于内容的图像搜索引擎,支持基于颜色、纹理和结构的可视化样图查询。它进一步支持上述几种查询的任意组合,用户可以根据自己的查询需求调整这些特征查询的权值;并提出了开放的检索系统管理框架。国内研究比较有代表性的中国科学院计算机技术研究所和北京图书馆联合开发的多媒体信息检索系统miReS。

4.基于内容的图像检索技术的研究热点

虽然根据图像低层次特征如颜色、纹理、形状等的检索有了一定的进展,但基于内容的图像检索技术日前仍处于研究探索阶段,局限于特定的应用领域,仍然存在诸多值得研究的问题。比如:1.如何能正确理解用户的要求,选择描述图像内容的适当方法,从原始图像中抽取特征描述,将高层语义特征和低层视觉特征结合起来,使得相似度匹配程度更高,检索结果更准确?目前国际上mpeG标准化组织正在制定的mpeG-7标准,其目标就是实现集高层语义特征和低层视觉特征的基于内容的多特征综合检索。2.如何有效地利用相关反馈技术,根据用户需求及时调整系统检索?3.如何定义一个客观的标准来评价检索结果。目前基于内容检索结果的评价方法采用的是信息检索中的查全率和查准率,远未令人满意?4.如何设计更加友好的人机交互接口。这些问题都会随着CBiR的发展成为将来研究的课题。

参考文献:

[1]吴永英,马笑飞.基于颜色、空间和纹理特征的CBiR系统实现[J].计算机工程与科学,2005,(6):43-45.

[2]卢爱芹等.基于内容的多媒体检索技术综述[J].科技传播,2010,(5):77-78.

[3]肖明,王永红,石勇.基于内容的图像检索研究进展[J].情报杂志,2007,(01):45-47.

简述多媒体技术的特征篇3

关键词:多媒体教学;多媒体技术;计算机技术;心理学;教育

abstract:multimediatechnologyistechnicallysynthetic,integrative,multidimensional,digitalizedanddistributive.Somultimediateachingisbroughtintopracticeonthebasisofthesetechnicaldistinctions.infact,multimediateachingtechnologydependsnotonlyuponcomputertechnologybutalsouponthelearner'spsychologicalcharacteristicsandpedagogicalprinciples.applicationofmultimediatechnologyineducationcallsfordevelopingmultimediateachingsoftwareandutilizationofcreatinginstrumentsandfabricatingrealitytechnology.

Keywords:multimediateaching;multimediatechnology;computertechnology;psychology;education

多媒体教学的发展,与其技术的发展有直接关系。在一些相关论著中,学者们更多的是对多媒体教学技术的论述,强调的是技术,而很少涉及学习者和教育者这样的“人的因素”。虽然对多媒体教学技术的研究是不可缺少的,但是探索多媒体教学的心理机制和教育基础则更为重要,因为人类是以完全不同的方式来加工多媒体教学的。只有这样,才能在多媒体教学中考虑学习者和教育者的主体性。

一、多媒体教学技术及其计算机基础

多媒体与多媒体技术应视为同义词。关于多媒体技术的特点虽然还没有形成共识,但是,也有一些基本的共同之处。早在1996年,吴炜煜先生在《多媒体世界》撰文提出了多媒体五大特点:1.将不同的媒体数据都表示成统一的结构码流;2.实行新的技术标准体制,以适应系统级集成和规范相关产品的性能指标;3.建设“全球信息高速公路”;4.应用“双向性设计”,统一信息提供者、接受者和控制者的关系;5.赋予信息系统对客观世界信息的自然模拟与处理能力。[1]华中师范大学傅德荣教授认为,多媒体特点主要有:1.整合性,通过计算机实现多种单媒体的整合;2.数字化,将各种单媒体变换成数字信息,读入计算机进行统一的整合,数字化技术是多媒体技术的一种基本技术;3.交互性,交互成多媒体系统;4.超媒体,是一种网状式的结构形式。[2]3黄孝建先生主编的《多媒体技术》一书指出,“多媒体技术是一种能同时综合处理多种信息,在信息之间建立逻辑联系,使其集成为一个交互式系统的技术。”“多媒体的关键性在于信息载体的多样性、交互性和集成性。这也是多媒体技术研究中必须解决的主要问题……多媒体系统一般具备如下功能:捕捉、操作、编辑、存储、呈现和通信,为用户服务。”[3]

根据以上关于多媒体技术的几种观点,我们认为,多媒体技术主要有5个特点:一是整合性。多媒体实时地综合,把文本、图形图像、声音、动画以及视频这些媒体中组成两种或两种以上的结合体,为的是借鉴各种媒体的优势,形成一种在功能上更加完善的体系。二是集成化。多媒体表示的并不单纯是信息的多样性,而是通过多种媒体表现、多种感官认知、多种仪器设备、多学科汇聚、多领域应用等交互作用,集成信息码流、设备控制、人与客观现实关系的一体化。三是多维式。多媒体是趋于人性化的多维信息处理系统,目标是要尽可能实现让人类在现实生活的自然环境下,保持信息交流的高保真效果、通信带宽和交互控制能力。四是数字化。多媒体具备数字化处理系统,其信息是一种数字化的信息,其信息结构是一种超媒体的网状式结构,所以高速宽带网络支持多媒体通讯和资源共享,建造全景化虚拟世界数据库成为现实。五是分布式。目前,多媒体技术正朝着分布式的方向发展。分布式多媒体是一门综合性技术,它集计算机的交互性、网络的分布性和多媒体信息的综合性于一身,突破了计算机、通信等传统产业间相对各自独立发展的界限,是计算机和通信领域的一次革命;分布式多媒体的发展涉及两个关键性的技术问题,一个是多媒体网络技术,网络的频宽、信息的交换方式及网络的高层协作,这直接决定着网络质量;另一个是数据压缩技术,使信息量巨大的多媒体数据、特别是视频和声频数据得以在网络上传输;分布式多媒体向社会提供全新的信息服务,使用户不但可以选择播放的节目以及内容,而且还可利用此系统得到诸如咨询、交流等信息服务。多媒体教学正是在上述5个技术特点的基础上实施的,这些技术特点,为我们提供了教学领域内各种综合性的信息服务,并帮助地理位置不同、时间安排不同的用户,克服各种障碍来共同完成教学任务。由此可以看出,在对多媒体教学技术及其计算机基础的理解中,我们不仅要重视计算机的技术,而且也要关注人与机器的关系、人性化的系统和用户至上的观念。

多媒体并不是多媒体计算机的代名词。多媒体计算机只是多媒体的一个特例。[4]它既有计算机的显著特性,又有多媒体的功能,所以学校进行多媒体教学时,通常以多媒体计算机为载体。然而,多媒体计算机仅仅是多媒体系统中的一个分系统,因此,它常常被认为是多媒体中的一个典范,或者说是多媒体的一种狭义的范畴。

多媒体教学为什么要应用多媒体计算机?计算机虽然也是单一的媒体,但它同电视、音响的不同之处就在于它具有强大的扩展性。就目前的科技水平来说,只要在计算机内加上适当的部件,就多了相应的媒体功能,对于多媒体教学来说,非常简便、经济,更重要的是它还能“胜任”多媒体教学的功能,是不可多得的优质的技术设备,必然被学校广泛应用。多媒体计算机正在以我们无法想象的速度发展。其主要作用是让计算机的使用和操作更加接近于人们的日常生活,使人们在日常生活中用各种各样的媒体交换信息。如使用纸张、广播和电视交换新闻、消息和知识。多媒体计算机技术可以使家用电脑用声音媒体、光学媒体和动画媒体来交换信息,它在教育中有着广泛前景。在多媒体教学中,它主要通过文字、声音、图形图像以及视频与动画这4个方面媒体的形式呈现出教学软件,掌握这四方面媒体的制作,成为制作多媒体教学软件的基本技能基础。

二、多媒体教学技术及其心理基础

从媒体技术的基础来分析,多媒体教学技术离不开视觉媒体技术、听觉媒体技术和触觉媒体技术等。多媒体信息是这些媒体信息数字化后整合而成的,如前所述,数字化技术是多媒体技术的基础技术。在数字化的过程中,各种单媒体有各种不同的国际标准,然而,如果重视“感觉通道说”[5],那么就要在探讨这几个方面的媒体技术问题的同时,必须揭示使用者(尤其是学习者)的感觉、知觉的心理机制,特别是人的视觉和听觉特征。

多媒体教学技术的出现扩展了人们用视觉模式呈现材料的具体途径。视觉材料包括文本信息、图形图像信息、视频信息。这些信息通过视觉媒体技术数字化后整合为多媒体信息。在这个过程中,我们对其技术上要作四点说明:第一,视觉媒体是一个非常复杂的信息系统。文本信息是文字信息的集合,它既是一种符号系统,又具有颜色、大小和种类等特征;图形是点、线、面、体等信号的集合,以面为例,不仅指一般的平面图,还包括曲线、地图、设计图等;图像是静止图像和活动图像的集合,所谓视频信息就是活动或运动的图像信息,它由一系列时间轴(周期)呈现的画面构成。第二,视觉媒体信息的数字化是根据上述各种视觉媒体信息的特征进行的。不管是文本信息还是图形信息,它们的数字化都是各自按编码的国际标准完成的。第三,视觉媒体的各种信息根据不同信号实现数字化。静止图像是一种二维信号,先要经过扫描转换成一维信号,再经过采样、量化、编码实现数字化;活动图像的视频按一幅一幅的静止图像以一定周期展示,每一幅的数字化方法与静止图像类似。第四,视觉媒体信息处理是一种按照物理学原理进行的技术。它们都是利用光电和电光转换原理,把光学图像转换为电信号进行处理后再还原为光图像。

为了使

多媒体教学技术的视觉材料更容易被学习者所接受,就必须要顾及人的视觉心理基础,也就是说,上述视觉媒体技术只有通过视觉心理机制才能实现多媒体教学的目标。这里,我们也要强调四点:第一,多媒体技术要考虑光的物理三属性所引起的视觉的三种心理机制。视觉的刺激是光,光是电磁波,电磁波的范围很广,而人可见的电磁波只占电磁波的一小部分。波长不同,会使我们在视觉上产生色调的差别,从而产生不同的色觉。色觉不仅取决于由波长所引起的色调,还和主观感觉的明度和饱和度有关。明度是对光波强度(振幅)的反应,饱和度则由物体发射或反射的光的纯度来决定。所以,多媒体教学技术在视觉媒体设计上要处理好可见视觉、色调、明度和饱和度这几方面的关系。第二,多媒体教学技术要考虑对感光物质的视觉感受器心理机制。视觉感受器的真正感光器官是视网膜上的一些细胞,其中锥状细胞感觉颜色,棒状细胞感觉明度,这两种细胞中感光物质的化学性质不同,光使这些物质分解,色素被漂白,从而刺激了感受细胞的膜,引起神经冲动。所以,多媒体教学技术在视觉媒体设计上要研究这两种感光物质的化学性质。第三,多媒体教学技术要考虑视觉过程,即眼睛看东西是一个编码过程,视网膜上的不同感受野在视觉中枢有不同的神经细胞,各有其功能,不同的细胞对所刺激信息系统的不同特征分别反应,并像计算机那样编码,这种编码实际是对一些图像的辨认。所以,多媒体教学技术在视觉媒体设计上要利用好视觉感受野与信息的特征。第四,多媒体教学技术要考虑各类视觉现象,特别是决定视力高低的视角、强弱光下的适应、视觉后暂留的后像、不同背景的视觉对比、不同明度下对不同光波长的感受性等等造成视觉的各种差异。所以,多媒体教学技术在视觉媒体设计上要运用各类视觉现象产生的规律。

在多媒体教学技术中,视听是紧紧地联系在一起的。在计算机环境下,眼睛知觉动画图像,耳朵则知觉解说语言;在演讲的情境中,视觉通道加工投影仪上幻灯片的内容,听觉通道则加工演讲者的声音。听觉材料主要是声音,包括语言信息、音乐信息和效果声信息。这些信息通过听觉媒体技术上数字化后整合为多媒体信息。在这一过程中,我们从技术角度作如下三点说明:第一,声音信息尽管是一种一维的模拟信号,它可以通过采样、量化、码字分配实现数字化,但它比文本信息的数据量要大,通常采用呈现声音和声音合成技术。第二,声波是起源于发声体的振动,在弹性媒质中传播的是一种机械波。它在气体或液体媒质中传播的是纵波,在固体媒质中传播的则是纵波、横波或两者的复合。声音信号有时域特征、频域特征和声色与失真特征。第三,声频或音频是人耳可闻的振动频率,频率范围每秒钟约为20-20000次(赫兹),声频信息数字化后其数据速率大、保真度好和动态范围大。当然,对于不同类型的声频信号,其信号带宽是不同的,电话、调幅广播、调频广播和激光唱盘等的声频信号是有较大区别的。随着声频数字化的发展,压缩编码技术是多媒体教学技术的关键之一。

要使多媒体教学技术的听觉材料被学习者更容易接受,也必须顾及人的听觉心理基础。这里,我们仅作两点分析:第一,多媒体教学技术要考虑声音的物理三属性所引起的听觉的三个特征。正像光有三种物理属性一样,声音也有三种属性,即振动的频率、振幅的大小、基音与陪音的倍数配合关系,以及所产生的听觉的音调(或因高)、音强(或响度)和音色的三个特征。人对不同音调的感受性是有差别的,尽管声频在20-20000Hz范围,但声频为1000-4000Hz之间音调感受性较好(即阈限较低),这是由于耳膜神经纤维承担的振动频率所决定的。测量音强的方法以分贝(dB)为单位,这是物理学与心理学都认可的,即两个声音之间的强度比率为1∶1.26(1分贝),因为1.26是能清楚辨别出两个声音振幅大小的区别。人的音色是由基音和陪音的不同比例的配合决定的。在音调和音强相同的情况下,人们之所以能够分辨出是哪种琴所演奏的曲子,正是由于不同琴的基本振动(基音)与分段振动(陪音)的比例是不一样的,这种比例成整数倍数为乐音,不成整数倍数则为噪音。所以,多媒体教学技术在听觉媒体设计上要利用好音调、音强和音色的三个特征。第二,多媒体教学技术要考虑听觉的感受野。因为听觉神经细胞是有分工的,研究指出,听觉中枢神经细胞有40%只反应噪音而不反应乐音,另外60%的神经细胞对乐音的反应也有分工。[6]冲动频可以出现在声音的出现时,可以出现在声音消失之后,也可以出现在声音出现和消失的一刹那;可以在声频降低时发生变化,也可以在声频升高时发生变化。一句话,听东西也是一个编码的过程,即在听觉的范围内也会有视觉中那种感受野的情况。由此可见,听东西绝不是简单的录音,听觉过程是有分工的,是一个侦察器在那里侦察。所以,多媒体教学技术在听觉媒体设计上要揭示听觉感受野,以及反应乐音与噪音信息的特征。

由此可见,我们在分析多媒体教学的相关技术的同时,也要注意学习者的心理基础,因为学习者是以特有的心理活动的方式来加工视觉和听觉等媒体信息的。

三、多媒体教学技术及其教育基础

在教育中应用多媒体技术,首先是多媒体教学软件的开发,此外,创作工具和虚拟现实等技术也在教育中应用。每一种技术既为教育服务,又有其教育的需要和基础。由于教育对象是人,所以在教育中不管怎样去应用多媒体技术,都要体现每一种技术为人服务,并把学习者和教育者的要求作为出发点。

多媒体教学软件是为教育制作的以计算机为基础的教育应用软件,它包括计算机辅助教学软件、计算机管理教学软件以及应用于教育的图标统计类等的实用软件,其中多媒体教学软件是核心技术。多媒体教学软件的开发,是一项对视觉媒体、听觉媒体和触觉媒体数据加以分析、处理和编辑的过程,这个过程包括两个环节,即设计和制作。在多媒体教学软件的开发设计中,有一个编写稿本的重要技术。傅德荣教授在《多媒体技术以及教育应用》

一书中设专章论述这个问题。他指出,“稿本是表示多媒体教学软件内部结构的各种文档的总和。它是一种多媒体文档。编写稿本的实质是多媒体教学软件的设计”。[2]230这个设计包括三个方面:一是总本设计,涉及内容结构分析、开发策略、超媒体的结构框图和制作原理等;二是详细设计,设计超媒体结构设计、人机界面设计、学习流程设计和框面设计;三是媒体数据设计、涉及静止图像数据设计、视频图像数据设计,动画数据设计和声音数据设计。稿本编写体现出工作的计划和制作的蓝图;成功的稿本编写是多媒体教学软件开发成功的一半,多媒体教学软件就是根据稿本进行制作的。与此同时,多媒体化的教学设计把活动分为三种类型,有课堂型、课外型和知识扩展型。多媒体教学软件设计要从教学实际出发,根据这三种教学模型编制教学软件,前两种属于课程软件,后一种属于参考软件。多媒体教学软件的制作,既需要有多媒体计算机等硬件环境,又需要有多个媒体数据整合而成的软件环境。在制作中,有一个立项、写本、编辑、加工、整合等开发流程;要使用某种算法语言和各种工具的两种方法,强调坚持教育性、可调节性、因材施教和非结构化教材等原则;制作成果是课件,也就是说,是有关课程某一部分内容的多媒体教学材料(包括教科书、参考书、录音带、录像带、幻灯片、影片等),是专为教学活动设计的计算机软件(包括用于控制和进行教育活动的程序,帮助开发、维护程序的文档资料,帮助教师和学生使用程序学习的课本和练习册等)。多媒体教学软件的开发,体现了多媒体技术是计算机教育的最佳手段。因为多媒体教学软件形式丰富多彩、趣味性强,符合学生心理特点;形象直观、生动、活泼,易于理解;有着丰富的教学资源,特别是和国际联网,以获取最新资料;改革教学模式,呈现交互式的教育方式;体积小、分量轻的光盘能容纳庞大的信息等等。多媒体教学软件的开发尽管有一些妨碍教师主导作用的负面影响,但它是各级各类学校教学的需要。现代教育对学习者记忆与学习的要求、师生互动组合方式的要求、个别化教学与因材施教的要求、不同教学环境、不同教学模式的要求等,这些都为多媒体教学软件开发奠定了教育基础。

多媒体创作工具是指能够集成处理和统一管理文本、图形、静态图像、视频影像、动画、声音等多媒体信息,使之能够根据用户的需要生成多媒体应用软件的编辑工具。当前,多媒体创作工具的种类归纳起来主要有以下三种类型:一是交互式流线或图标编辑控制型,编辑人员按照脚本的要求将选定的不同类型的图标根据需要一一放置于流线上进行编辑。二是描述式页控制型,将多媒体素材根据需要编辑在一幅画面之中形成一页书,再将页与页之间按一定的调用关系联系起来以形成一本书的概念,不同页之间根据需要交互性地呈现即形成多媒体应用软件。三是时间流程型,这类工具在编辑信息时显示出较强的时间前后顺序,即时间流程(timeLine),主要用来编制一些简报类的程序。编制一个优秀的教育软件,我们需要了解诸如软件的使用体、运行环境等问题。其中关系到软件成败的一个重要因素是要了解创作工具的特点,这样,才可根据需要有目的地进行选择。多媒体创作工具与其他工具软件相比,具有以下特点:1.操作简便,易于入门;2.强大的集成性开发环境;3.开发周期的缩短是软件得以投入运作的最好方式;4.具有极大的扩充功能。在软件的制作中创作人员一般都追求一种极大的时效比,也就是在较短的时间内,用较少的原程序求得较好的效果、较高的质量、亮丽的界面和较低的运作环境。因此,如何从众多的多媒体创作工具中选择符合自己最满意的多媒体创作系统,直接关系到以上所罗列的各种要求。一般来讲,选择多媒体创作工具时应从以下几个方面进行考虑:对创作人员,要求其个人能力与经验;对多媒体创作工具运行的环境,我们以pC机的环境作为标准。此外,maC多媒体系统是一种多媒体的典范;由于多媒体教学软件有诸如教育型、演示型、娱乐型、百科全书型等不同类型,因此,对创作工具的选择要求根据具体需要考虑选取不同的类型。因为不同的多媒体创作工具其适用范围是不一样的。综上所述,现在教育系统使用多媒体教学技术,其质量是受多媒体创作过程影响的。目前,为满足大、中、小学制作多媒体教学软件的需求,在制作软件时需按要求选取适当的创作工具,提高制作人员的业务素质,才能做出质量较高的教育软件。

虚拟现实是一种人和计算机接口的技术,亦称“灵境技术”。它是利用计算机生成一种高度逼真的、模拟人在现实世界中进行视、听、动等行为的虚拟世界。虚拟现实不仅能够展示现实世界的各种现象,而且还能实现现实世界难以实现的特征。虚拟现实通过多种传感设备,使人有很好的临场感,产生身临其境的体验。虚拟现实技术实现人与虚拟环境的自然交互,实现对虚拟系统的自主控制,实现感知的现实、操作的现实和运动的现实所构成的三要素。这里要强调传感设备。它有显示和呈现视听感知现实的立体头盔等设备;有输入人体对虚拟现实操作行为的数据手套等设备;有通过合成和传递方式实现运动现实的计算机模拟等设备。这些传感设备,既有穿戴在人体上的装置,又有设置于现实环境中的传感器,如摄像机、声响设备、远程传感设备等。虚拟现实尽管经费昂贵且有一定实验的危险性等,但作为多媒体教学的一种技术,它在丰富学习环境、为学生扩大知识信息、提高实践能力、增强创造才华等方面还是有教育价值的。虚拟现实的出现,是教学训练、特别是复杂技能和特殊专业训练以及教学评价的需要。如果有条件,教师也可以使用。不少现代教育,如建工、医学、航空、航天等专业的教学,若采用虚拟现实技术,对提高教学教育质量会有很大的帮助。所有这一切,都为虚拟现实技术奠定了教育基础。

[参考文献]

[1]吴炜煜.多媒体技术导论[J].多媒体世界,1996(1):11-13.

[2]傅德荣.多媒体技术及其教育应用[m].北京:高等教育出版社,2003:3.

[3]黄孝建.多媒体技术[m].北京:北京邮电大学出版社,2000:2.

[4]林众,冯瑞琴.计算机与智力心理学[m].杭州:浙江人民出版社,1997:289.

简述多媒体技术的特征篇4

跨媒体技术发展现状

目前,为了实现同时对多种媒体类型的信息检索,国内外学者的研究工作主要集中在以下几个领域:1)基于“词袋”模型建立多媒体对象知识库此类方法大多通过对多媒体对象的语义信息进行人工标注得到先验知识,结合“词袋”模型等为海量多媒体信息建立知识库,从而借助知识库的桥梁作用实现跨媒体检索。显然,此种方法很大程度上还是一种变相的基于关键字的检索,需要人工标注大量的关键字训练样本集,虽然它在一定程度上避开了特征向量异构和语义鸿沟的问题,但是人工标注耗时耗力且缺乏统一性与客观性,多媒体对象的语义信息往往不能够得到恰当描述,因而检索的准确性往往不尽如人意。2)基于文档链接关系或web链接关系建立多媒体对象之间的语义关系。此类方法通过分析多媒体文档之间的链接关系或者web网页中的链接跳转关系建立多媒体对象之间的语义关系网(跨媒体关联图、交叉参照图模型等)从而实现多媒体对象之间的相互检索。该方法有效地避免了媒体对象之间的语义鸿沟,但是对链接关系的依赖性太强,不具有一般性。3)建立辅助空间解决特征向量异构问题。此类方法为解决不同类型媒体对象之间特征向量异构的问题,在计算特征向量和相似性的度量时,一些方法是基于数据集中所有数据间的距离度量的,但是在实际跨媒体数据集中:一方面,计算和存储所有对象间的距离尺度是不现实的;另一方面,距离度量不能有效解决现实生活中的问题。因此,一些学者提出采用典型相关性分析(CCa)、主成分分析(pCa)、独立成分分析(iCa)等技术对特征向量进行降维处理,使得异构的特征向量在一个辅助空间中具有可比性,从而进行多媒体对象之间的相似性度量。此种方法往往在对特征向量进行降维处理的过程中产生“维度灾难”。4)基于机器学习、神经网络等方法获取多媒体对象间的语义关系。此类方法主要是通过机器学习或神经网络领域的融合分析、流形学习、线性迭代与映射、概率模型、支持向量机、监督分类、非监督分类等方式对异构数据之间的关联关系进行挖掘,进而实现不同模态多媒体数据之间的相互检索。总的说来,该类方法检索效果不错,但往往计算量比较大,实现过程比较复杂。5)索引。此类方法一般是通过对多媒体数据进行一定预处理得到相互之间的相似关系,进而根据相似关系为海量多媒体对象建立索引,以提高检索时的效率。这是一种辅助型的方法,更多的是关注如何有效地减少检索所需要的时间,提高跨媒体检索的效率,对多媒体对象之间的相似度度量未关注。6)基于ontology的检索。此类方法是建立在基于内容检索的基础上,用ontology存储多媒体对象语义信息的新型检索模式。检索过程中结合多媒体对象的底层特征与on-tology表达的语义信息进行跨媒体检索。该方法对多媒体对象的语义信息及空间关系表达与处理具有强大的优势,同时,ontology模型能使检索系统更加智能化与人性化。然而,现有的跨媒体信息检索技术的研究对象主要是已采集好的各种媒体数据,较少考虑多用户分享中的数据冗余、网络带宽约束等移动互联网环境下面临的新问题和挑战。

用户标注和地理本体在跨媒体中的应用

移动终端能够帮助人们以各种方式记录现实世界,同时也造成了数据的异构性、语义的异质性以及存储、传输这些数据对网络和硬件的挑战。随着智能终端处理能力的不断加强,目前已可以实现在智能终端上对采集的图像和影音数据进行编辑和特征提取。采用本地提取特征再进行网络分享的方法将大大降低网络带宽的使用。另一方面,由于不同用户在对相同内容进行记录时可以选择不同的媒体类型作为载体,上传并分享这些内容特别是影音图像资源会占用较多的服务器存储空间。因此,提取资源中的语义信息并通过简单推理进行信息聚合,能够较好地降低移动互联网环境下信息分享的数据冗余问题。本体论作为语义模型的新方法,主要用于知识的共享、交互和重用方面,它具有良好的概念层次结构和逻辑推理。通过对领域知识的理解、描述和推理,能够更好地实现信息共享和重用的目的。当运用到信息检索领域时,具有以下4个优点[3]:(1)本体关于领域知识的共同理解和描述可以使得现代网络中的信息组织形式从传统的基于语法逐步转向基于语义;(2)本体对于概念及其之间关系的精确描述可以极大地提高信息检索时的查全率和查准率;(3)采用形式化的描述方式使其能被计算机所理解以及更好地满足海量网络信息组织的需要;(4)本体能够很好地支持逻辑推理,使得信息检索系统更加智能化和人性化。地理本体是将本体论引入到地理信息科学中,它除了具有本体所具有的优点外,在处理对象空间位置及空间关系方面具有无法取代的独特优势。随着以web2.0技术为代表的社交网络的发展,用户的需求从简单的、被动的信息获取逐步升级为主动参与到信息管理、信息交互的过程中。用户期待一种不需要精确的预定义的集成框架甚至不需要原始信息的本地副本,实现多维、海量信息的快速、低代价的获取。用户标注方法在特征提取和语义分析过程中借助人的认知过程,提取源数据中的知识,对信息检索的准确率提升有着至关重要的作用。而地理本体,作为一种半自动化的语义推理模型,可以有效降低不同用户标注带来的差异性,同时更准确地描述移动互联网环境下信息的时间和空间特征。采用这2种方法相结合建立本地特征索引副本,能够有效降低数据传输对网络带宽的需求和存放数据对存储空间的需要。

1用户标注

受限于移动终端的大小、网络通信能力有限,不适宜采用传统的方式对采集的图像、视频等多媒体数据进行完整上传和统一计算。实现在本地的特征提取和用户标注,可以大大减少网络通信,节省用户分享的代价。openCV作为传统的视频、图像处理工具,目前已被广泛应用在ioS和android为代表的移动终端上,并能获得较好的特征提取速度和分析结果。另外,随着摄像头、麦克风、nFC等传感器的发展,基于手机的增强现实技术也取得了长足的进步,为用户的信息标注提供了新的手段和方法。采用用户标注和特征提取等方法[4],结合移动终端对现实世界的时间、位置感知,提交较少的描述信息或特征信息,降低了信息和内容分享的门槛。如图1所示,采用增强现实和用户标注[10]技术后,用户仅需上传简单的标注、位置信息和提取的语义、图像内容特征即可实现内容的分享。对查询用户来说,需要检索的信息仍然是充分的。

2地理本体

地理信息科学中的本体论研究是高度跨学科的交叉研究,与地理信息的认知、表达、互操作,尺度和不确定性密切相关,其最重要的一点是研究空间信息的语义理论。基于地理本体的语义检索[5][6]是通过本体构建概念层次空间实现的检索,它利用本体明确建立了研究对象的概念、属性、空间位置等各种关系,并且可以通过逻辑推理发掘隐含在概念之间的不明确、非直接的信息,从而可以实现语义的智能信息检索。在跨终端、跨媒体环境中,地理本体模型提供了一个统一的语义管理平台。在移动互联网环境下,地理本体模型构建完成后,可以基于多种格式标准进行,用户本地采集的数据通过用户标注、特征提取等方式按照层次、概念和推理结果向现有的本体模型中进行映射,构建新的结点和数据内容。这样,用户采集的多媒体数据可以分布式地存放在各自的终端上,通过更新本体模型建立快速、有效的索引,提供统一的跨媒体、跨终端的服务标准,有效降低分享和检索带来的网络资源消耗和源数据的冗余存放。为了帮助本体开发人员和领域专家对领域知识进行建模,斯坦福大学主导开发了一个基于java的开源本体编辑工具protégé[13]。该工具使得构建本体知识库的过程易于操作和管理,降低了本体构建的高昂成本和维护代价。它不但支持复杂的知识表示,还支持简单的逻辑推理。protégé支持对多种推理引擎的调用,如Jena,Racer,FaCt,pellet等,由于protégé本身是在Jena的基础上开发的,protégéowLapi相当于对Jena的包装,为了支持推理,protégé接口中包含了Jena的开源开发包,将Jena推理功能嵌入到了protégé的api中。Jena提供了可扩展的类包提供基于规则的推理机,包括RDF推理机,owL推理机等,在基于规则的推理机中包含了一般的推理功能,这些方法都遵循w3C的标准。

跨媒体技术的发展和挑战

1多模态信息检索系统

1)麻省理工学院“基于图片的问答系统”。该系统作为多模态、跨媒体检索领域的先驱,支持用户以更加直接的方式检索不同类型媒体数据,以克服传统搜索引擎依赖于文本匹配的检索方式。整个系统通过3层架构实现对图像和文本的交互检索:(1)模版问答(templatebased),根据图像的预分类信息进行检索;(2)历史库问答(internalrepositorybased),根据内建的历史问答库进行检索;(3)用户指导问答(humanbased),当检索内容过于复杂时采用用户指导的交互方式进行检索[7]。2)新加坡国立大学的“多媒体问答系统”(mul-timediaquestion-answering)。该系统解决了网络跨媒体搜索中的三个主要问题:(1)大规模的可视化概念标注,用于区分一种媒体实体是否包含一个或多个预定义概念标签的;(2)支持大规模Knn内容搜索的索引方法;(3)用户反馈的交互检索方法[8]。3)i-SeaRCH项目。该项目有欧洲多个研究机构和包括Google,emC2在内的多个it领军企业共同合作研发。该项目旨在研发一种针对多模态内容数据的通用框架提供索引、共享、查询和检索等功能。目前,该项目已经取得较好的成果,能够结合现实世界信息有效管理和利用多种类型的媒体数据和多模态数据,包括文本、2D图像、草图、视频、3D对象和音频文件等。整个项目较好的解决了多媒体查询和检索、相关反馈、多模态交互、个性化设置和可视化分析等诸多方面的难题[11]。图3为i-SeaRCH系统原理架构图、整个系统主要包括三层:描述符提取层、检索交互层和可视化表现层。

2跨媒体检索面临的挑战

多媒体检索领域中面临的挑战可以归结为“7个千年问题”:语义鸿沟、机器学习、人机交互、多媒体水印、数据挖掘、性能评估以及基于互联网的多媒体标注与检索[12]。随着网络技术的发展和智能终端的普及,跨媒体在移动互联网搜索领域将越来越重要。今后几年值得关注的几个问题如下:1)在多媒体的语义理解过程中,结合地理本体在处理空间和语义推理方面的优势,提高语义理解的性能和检索的精度。同时,用户的反馈和交互知识仍然起着重要作用,是不可或缺的。2)实现移动互联网环境下的个性化检索,通过手机用户偏好和情景信息感知用户意图,提高检索精度,目前,个性化检索技术已成为下一代搜索引擎提供服务的突破所在[13]。3)多种媒体流的同步问题。每种模态的多媒体信息有其自身的粒度级别,如视频的帧级别、剪辑级别,图像的像素级别、区域级别等。不同模态的媒体以其自身的粒度等级作为一个处理单元[14],因此在连续的跨媒体检索中如何实现同步、同期化处理多模态数据而不丢失语义信息是一个新的研究领域。4)由于移动智能终端的计算能力和网络传输能力有限,多媒体数据的源数据只能是分布式的存放在不同用户的终端上,能否建立快速、有效的索引,提供统一的跨媒体、跨终端的服务标准,将是制约移动互联网环境下跨媒体信息共享服务发展的瓶颈。

简述多媒体技术的特征篇5

关键词:基于内容检索;媒体语义;特征分析;平台

mediasemanticfeatureanalysisplatformsupportingcontent-basedretrieval

xieyu-xiang?1,luanxi-dao??1,2,wuling-da?1,chendan-wen?1,dengli-qiong?1

(1.collegeofinformationsystem&management,nationaluniversityofdefensetechnology,changsha410073,china;2.dept.ofinformation&computingscience,changshauniversity,changsha410003,china)

abstract:onthedemandofcontent-basedretrieval,thispaperintroducedamediasemanticfeatureanalysisplatformsupportingcontent-basedretrieval.itinvestigatedsomekeytechniques,suchasdigitalmediasemanticobjectextractionandretrieval,classificationandannotation,andsemanticassociationanalysis,etc.italsoillustratedtheimplementationschemeabouttheplatformindetail,andthenrealizedtheplatform.

keywords:content-basedretrieval;mediasemantic;featureanalysis;platform

0引言

随着信息技术的发展和应用,图像、音频、视频等数字媒体信息呈现出海量增长的趋势。如何根据用户的应用需求,从海量信息中快速找到用户感兴趣的信息,是目前信息领域迫切需要解决的重要问题之一。解决这类问题的基本方法是:根据用户的应用需求从海量数字媒体信息中提取出相应的媒体特征,并对这些特征进行合理有效的组织和管理,进而根据特征实现对用户感兴趣信息的基于内容检索,其中媒体特征的有效提取和组织是实现基于内容检索的关键问题之一。目前媒体特征的提取和组织,研究较多且相对成熟的是对媒体底层特征(如图像的颜色、形状等)的提取和利用。媒体特征提取和组织的新的研究前沿是,关注媒体的高层特征(如事件、人物、时间、地点等语义信息),通过分析提取媒体语义特征,同时通过建立不同类型媒体之间的语义关联,实现相对快速、高效的基于内容的检索。

目前,国外经典的多媒体信息处理系统包括:美国加州大学圣迭戈分校研究开发的信息透镜infoscope项目、ibm艾玛登(almaden)研究中心开发的qbic系统、美国哥伦比亚大学电子工程系和电信研究中心研究的visualseek与webseek、virage公司的vir图像工程系统、excalibur公司的excalibur视觉检索产品、普林斯顿大学研究的caetiiml系统、mit媒体实验室研究的photobook系统、意大利巴勒莫大学研究的?jacob系统等。这些系统都具备依据媒体底层物理特征进行基于内容检索的能力[1]。近年来,国内外研究机构对于多媒体信息处理技术的研究已经由底层特征向高层语义转变,研究重心开始集中于多媒体语义对象提取与检索、多媒体数据自动分类与标注、关联分析、组织与表现等方面。

卡内基梅隆大学在数字图书馆项目第二阶段informedia-ⅱ[2,3]研究中,将单个视频文件的摘要技术扩展到多个视频文件的摘要及视频数据库信息可视化研究。主要研究能够自动探测和识别特定语义实体和视觉特性的技术,例如:视频中出现的特定人物、特定事件的具体场景镜头等,通过语义实体与视觉特性的分析,能够有效提取并分类信息,更加易于分析和发现有内在联系的个体动作、群组活动与事件。此外,爱尔兰都柏林城市大学开发的fishclar系统[4]也具有重要的影响力,该系统通过对新闻视频进行镜头探测、故事单元分割等处理,结合闭路字幕信息,实现了对新闻视频的管理和检索等应用。

国内清华大学、微软亚洲研究院、北京大学、国防科技大学、

其研究的主要内容是:a)数字媒体的分析处理技术,主要研究数字媒体特征选择、数字媒体特征描述和提取、数字媒体语义提取和标注、数字媒体数据的分类等;b)基于内容的媒体信息关联分析技术,主要研究语义事件和语义对象的关联分析、事件探测与跟踪技术、事件之间的关联分析等;c)基于内容的数字媒体检索技术,主要研究高维数据索引技术、交互式检索技术、基于语义的检索技术等;d)数字媒体数据的组织和表现技术,主要研究数字媒体数据的统一表示模型、数字媒体数据的表现技术。

本研究的目标是:以媒体信息服务的应用需求为牵引,着眼于对数字媒体语义特征分析的前沿问题进行探索研究,重点突破数字媒体语义对象提取与检索、分类与标注和语义关联分析等关键技术,提出以数字媒体语义分析为基础的高效的基于内容的检索方法;实现一个以基于内容检索应用为目标的媒体语义特征分析平台,并为军事等领域中的情报综合分析应用提供多媒体信息智能检索和个性化表现等服务的示范应用。

1实施方案

本研究主要围绕建立支持基于内容检索的数字媒体语义特征分析平台展开研究,带动相关关键技术的研究。支持基于内容检索的数字媒体语义特征分析平台由数字媒体语义特征分析平台、数字媒体信息服务系统以及媒体信息数据库三个部分组成。平台的体系结构如图1所示。其中,数字媒体语义特征分析平台包括媒体语义模型、媒体特征提取、媒体语义提取、媒体分类与标注等模块;数字媒体信息服务系统包括数据组织与表现服务以及智能检索服务两大模块;媒体信息数据库由媒体库、特征库、语义信息库、索引库、模型库等组成。解决的关键技术已经集成在该平台的各个子模块中。

1.1数字媒体信息处理子系统

数字媒体信息处理子系统是整个系统的基础,为最终的检索服务和组织与表现服务提供必需的信息。它在数字媒体信息收集工作的基础上完成媒体特征的选择、媒体特征的描述和提取、媒体数据的分类、媒体语义的提取和标注、关联分析等。

1)数字媒体底层特征提取与表示根据语义提取和分类的需要,结合相应的领域知识,从各种数字媒体数据中提取多种有效的底层特征,同时通过分析特征之间信息的冗余性来找出更加简洁有效的底层特征,并采用统一的表示方式来进行?描述。

2)数字媒体语义提取与标注数字媒体语义的提取主要侧重于研究视频中对象语义的提取与标注技术,主要从三个方面来进行研究:

a)新闻视频中重要人物的提取与标注。由于在新闻视频中人们往往最关注的是一些重要人物,这里的重要人物主要指那些出现了特写镜头并且有一段讲话的人物,他们的出现往往与一些重要的新闻事件相关联,通过对重要人物的提取与标注能够极大地方便用户最终查询相应的人物和事件[9]。主要通过综合视频的多模态特征来提取出新闻视频中的这些重要人物,并用他们的名字来进行标注。具体来说分为三个步骤,首先通过综合音/视频特征来进行提取重要人物的提取;然后通过语音识别和字幕识别获得候选人名集合;最后通过多种方式来建立人物与人名之间的关联,完成对重要人物的标注。

b)场景对象语义提取与标注。场景对象语义往往描述了视频镜头的一些基本的全局信息,是分析和提取其他高层语义的基础。本研究提出了一种基于分块潜在语义的场景分类方法[10]。该方法首先对图像进行均匀分块并使用分块内视觉词汇的出现频率来描述每一个分块;然后利用概率潜在语义分析(plsa)方法从图像的分块集合中发现潜在语义模型;最后利用该模型提取出潜在语义在图像分块中的出现情况来进行场景分类。在13类场景图像上的实验表明,与其他方法相比,该方法并不需要进行大量的手工标注,而且具有更高的分类准?确率。

c)运动对象的提取与标注。对于视频中运动对象的提取与标注,侧重于监控视频中运动目标的探测、跟踪和识别方法的研究。首先对监控视频采用背景剪除和运动补偿相结合的方法来探测运动对象,通过基于光流的金字塔跟踪算法来实现对运动对象的跟踪,在运动对象探测和跟踪的基础上,通过提取运动对象的特征来分析运动对象的模式、轨迹或者运动特点;最终通过与已有视频数据中相应目标的运动特征来进行匹配,从而识别出运动对象。

3)媒体数据分类对于数字媒体数据分类的研究,以视频分类作为最主要的研究内容。首先对各类视频的视频特征(包括镜头编辑特性、运动特性、声音特性、画面的亮度色度特性等)作出概括,分析出各类视频的特征差异,然后根据各类视频的这些特征差异,分别通过视频内容分析静态特征提取、运动特征提取、音频特征提取等方法提取出合适的特征向量,完成对视频内容的描述。在搜集大量视频素材的基础上,研究采用合适的机器学习方法(如svm、hmm等方法)进行训练,从而利用该分类器模型实现对视频数据的分类。对视频中单模态分类结果进行融合,提高视频分类的准确性。

4)媒体数据关联分析因为语义对象、语义事件能够为用户提供可以理解的语义信息,所以重点面向如下两方面:

a)基于语义对象要素与语义事件的关联分析。研究语义事件与时间、地点、人物等语义对象之间的关联,尤其是语义事件与人物之间的关联,同时在已有基础上对事件与时间、空间的关联进行完善。

b)基于语义事件的关联分析。它可以增强对语义事件的深入分析和理解。首先从新闻报道的角度展开事件探测与追踪技术的研究。事件探测旨在发现新的事件并将与某一事件相关的所有新闻报道归入相应的事件簇,所以事件探测本质上是一种特殊的文本聚类技术。事件追踪就是通过监控新闻媒体流以发现与某一已知事件相关的后续新闻报道,这与信息检索领域中基于示例的检索有许多共同之处,只是在事件追踪中往往已知的训练正例非常少,并且与某个事件相关的报道集中出现在特定的时间区间。对于语义事件之间也存在着的相互联系和影响,则通过它们之间关联规则的挖掘和关联关系的分析,对事件进行跟踪和对趋势进行预测,对特定事件可以实现预警。这种关联分析还可以辅助对主题的分析和管理。语义事件的关联分析以故事的文本信息为主要载体展开。通过文本信息中关键词对事件信息支持度的提取,结合时间信息进行事件关联分析。

1.2数字媒体信息服务子系统

数字媒体信息服务子系统是与上层应用结合最紧密的系统,也是需求与关键技术进行有机结合的关键,包括如下系统。

1)情报表现服务子系统其目的是将信息处理后的结果以可视化的方式表现给用户,为用户提供辅助决策和信息支持等服务。

(1)数字媒体数据的组织针对数字媒体数据的特性,提炼出面向数字媒体信息分析服务的基本四维结构模型,在此基础上构造出基于事件、主题、结构化语义的数字媒体数据的关联组织。针对用户提出的个性化定制需求,研究基于媒体描述框架mpeg-7的多媒体情报的集成和同步模型,把超媒体模型和多媒体集成与同步模型(如ocpn)等结合起来,实现数字媒体数据关联节点的跳跃和基于时间线、时间墙、地理信息的动态组织。

(2)数字媒体数据的可视化表现研究信息可视化的模型(如主题视图、时空关联图、信息资源与主题的关联程度分布等),针对不同类型的数据选择适合的可视化模型。

(3)数字媒体数据的综合集成服务通过研究数字媒体数据间的趋势和可视化表现方法,提供趋势关联可视化辅助服务。采用文本、图像、视频、音频的分析方法对用户关心的事件和主题进行连续跟踪,基于时间序列的分析方法对事件和主题进行关联挖掘,采用时间序列可视化的方法(如河流模型)将分析得到的结果和趋势按照时间的顺序表现出来。

通过研究智能信息叙事性表现模型,为决策者提供可定制的高层信息表现服务。该模型包括文本理解与模板生成模块、媒体融合模块、信息表现模块。文本理解与模板生成模块以自动分词为前提,以信息词典库为基础,以句法和语义分析为核心,以规则和背景知识为约束,对输入的文本进行分词和词性标注;运用句法知识将输入的句子中单词之间的次序,转换成合适的叙事模板。媒体融合模块负责从大量的媒体中智能地找到符合叙事模板条件的合适媒体。信息表现模块负责把媒体融合模块中组织好的媒体以某种关联的方式(或按照语义的关联,或按照时间的关联)以适合的形式表现出来。

2)基于内容的智能检索服务子系统其目的是为满足不同用户的不同信息需求,提供交互式的、基于语义的、高效率的检索服务。该子系统需要解决以下问题:

a)建立高维数据索引。对于大型数字媒体数据库,为对数据进行高效率的检索,必须对媒体特征和语义等信息建立高效的索引机制。首先分析数据集的整体分布特性,确定数据集中单个个体的本征维数,然后基于该统一的本征维数,用数据个体各自的本征维属性来表达该个体对象,从而达到降维的目的。

b)设计合理的检索模式。为更好地辅助用户完成检索操作,必须设计适合于语义检索的人机交互界面和检索模式,使其能便于用户以多种方式表达自己的意图。

c)基于内容的检索服务。媒体的内容既包括底层特征,又包括高层语义。传统的基于内容检索大多针对基于底层特征,但底层特征往往很难准确地表达用户的检索意图,因此本研究提供一种底层特征与高层语义相结合的检索方法,通过研究用户检索语义的表示与扩展方法,研究多元语义匹配机制,建立高层语义与底层特征之间的关联关系,从而使系统采用的基于语义的检索算法能更接近人的自然语言描述的意图。

d)建立相关反馈机制。基于内容的检索是一种模糊检索,系统往往难以准确描述用户的检索要求,需要与用户多次交互反馈、逐步过滤检索结果,逼近检索目标。相关反馈正是解决以上问题的一种有效途径。通过相关反馈,可以让用户评判检索结果的好坏,并返回给系统,系统对反馈结果进行分析处理,相应地调整参数,以提高下次检索的精度。通过一定次数的反馈,检索精度会达到一个令人满意的程度。

2平台实现

支持基于内容检索的媒体语义特征分析平台通过visualstudio进行了具体实现,其中涉及的核心技术通过vc进行了封装。平台主要提供对图像、视频、文本、音频等媒体数据的语义分析和处理功能。重点完成图像的自动分类,运动对象、人脸、台标等语义对象的标注,以及事件的关联分析等功能。图2显示了利用平台进行图像场景自动分类的过程。图3显示了利用平台进行人物的语义检索。平台所提供的其他功能在这里不再赘述。

3结束语

本文介绍了研制开发的支持基于内容检索的媒体语义特征分析平台,研究围绕数字媒体的高层语义特征分析开展,以支持基于内容检索的应用,重点突破各种数字媒体信息的语义对象提取与检索、自动分类与标注和关联分析等关键技术,这些技术都是目前信息技术领域中的研究前沿问题

和难点问题,因此本项目的研究成果对我国数字媒体处理与服务技术的发展具有良好的推动作用。它将在很大程度上提高数字媒体收集整理工作的效率,大大简化数字媒体的管理工作;最重要的是能够帮助用户从大量的数字媒体数据中快速获取有价值的信息,节省大量时间、人力和物力,可带来巨大的经济效益和社会效益。

参考文献:

[1]

smeulderswm.content-basedimageretrievalattheendoftheearlyyears[j].ieeetransonpatternanalysisandmachineintelligence,2000,22(12):1349-1379.

[2]christelmg,hauptmannag.theuseandutilityofhigh-levelsemanticfeaturesinvideoretrieval[c]//procofinternationalconferenceonimageandvideoretrieval.berlin:springer,2005:134-144.

[3]hauptmannag.lessonsforthefuturefromadecadeofinformediavideoanalysisresearch[c]//procofinternationalconferenceon?imageandvideoretrieval[s.l.]:springer,2005:1-10.

简述多媒体技术的特征篇6

1系统的理论架构

该书较为完整地架构了现代教育技术研究与应用的理论体系,包括现代教育技术的基础理论,现状分析,现代教学媒体理论,数字化媒体素材获取、处理与制作,交互型多媒体课件制作,远程教育,计算机网络教育,教学设计与评价等理论分析内容,全方位呈现了现代教育技术在学校教育教学应用中的理论基础、实践方向和方法论,为现代教育技术理论与实践的发展应用奠定了良好的认知基础。具体来说,该书的论述逻辑符合现代教育技术探索与应用的一般流程,它通过点、线、面相结合的论述方式,全方位反映了现代教育技术理论研究与实践探索的趋势与成果。而在现代教育基础理论的架构中,该书统筹了现状分析、技术发展探究以及教育技术创新的未来趋势,凸显了现代教育技术研究理论体系的发展性。

2鲜明的实用性特征

该书具有实用性特征和实践性价值,在分析总结现代教育技术理论基础、类型和实践策略的同时,还详细地阐明了相关教育技术的操作方法和操作技巧,让读者既能够充分增进对理论的理解掌握,又能够充分强化对现代教育技术的操作训练与操作应用,例如声音素材、动画素材、视频素材、多媒体课件的处理与制作等。在以实践为导向的现代教育教学改革中,现代教育技术理论与实践的探索应当高度注意实用性和实践性的一体化,将现代教育技术的理论与技术真正地结合在一起,促进理论与实践之间的相互转化,以技术促进理论创新,以理论创新带动技术推广,进而多方面、多角度、高效率地推动现代教育教学的信息化建设与数字化创新。

3丰富的图表与案例

简述多媒体技术的特征篇7

关键词:新课程;主导;主体;多媒体;化学;

随着社会信息化水平的迅猛发展,现代化教育技术已悄无声息地地走进课堂。教育信息化,即将智能教育辅助工具广泛推进于各个教育业领域[1]。其中,多媒体技术的应用越来越广泛,越来越多的化学教师开始使用多媒体技术辅助教学,教师处理教材和课堂教学的方式也层出不穷。

新课程理念倡导以学生为主体,教师为主导。这种教学模型强调了教师的主导下学生对知识的自主构建。多媒体不再是一个教的工具,更是一个信息反馈的工具,采用多媒体教学,可以实现启发式教学,教师的教学方式和学生的学习方式都发生翻天覆地的变化。这种教学方式将教学素材与课程、被教育者有机结合,而不是机械死板地将结论展现给学生,让学生学习时有充足的空间去学习,去自我反思与总结,自我发展,提高学习效率。

多媒体技术在化学教学中主要有以下作用:

1.增大课堂容量

使用多媒体信息技术可以增加课堂的容量。图形虽然不是语言,但好的图形却比语言更加直观和生动形象,而动画又是一种比图片更加高级的表现方式。相比较于纯语言教学而言,多媒体能增加学生的印象,减少理解时间,提高学习效率。

2.激发学生兴趣

教学过程中,将时效性强、有趣的先进理念展现给学生,能让学生带着兴趣在轻松的氛围中学习。

3.优化教育教学过程

多媒体教学能将传统教学中难以实现的教学过程展现给学生,如:描述原子的结构,多媒体能够直接显示原子核与核外电子的排布情况,扩大学生的视野范围,从而弥补在传统教学中的语言描述不到位。

利用多媒体辅助教学尚存在诸多问题,笔者认为有以下几点注意事项:

第一,要正确处理传统教学与多媒体的关系,这两者是相辅相成的,不是能够相互取代的。虽然多媒体教学有着传统教学补课无法比拟的优势,但多媒体教学一旦滥用,反而会适得其反,造成很多不利的影响。如:某化学教师介绍“化学药品与器材”时,若只采用多媒体绘制器材与药品,学生虽然看到了药品和器材的表象,却没有真实的感官认识,教学效果就反而会事倍功半。且多媒体教学的播放速度很快,课堂容量大,若在整堂教学活动中切换过于频繁,速度超过学生的注意力转换速度,就会使学生手忙脚乱,结果让学生懈怠,懒于思考,呈现被动状态,不仅无法突出教学重难点,还让学生逐渐丧失学习兴趣。因此,多媒体的使用要结合教学内容和使用者的计算机技能水平。若将多媒体技术与传统教学相互结合、渗透,则会呈现更好的教学效果。

第二,模拟实验不能全部代替化学实验[2]。传统的化学实验真实性是多媒体永远无法复制的,如:演示实验中产生的气味以及触觉感知,学生在模拟实验中是无法感知到的。虚拟仿真实验自身存在不足(如实验沉浸感不强),缺乏真实性,使学生的心理很难信服。笔者认为,模拟实验能代替部分无法在课堂上演示的实验(如周期较长、危险或污染重的实验),但绝非全部化学实验。课堂上能在现有实验条件下完成演示的实验就尽量用真实实验进行演示操作,有条件的话还尽量让学生协同完成实验。只有将虚拟实验动画、实验视频与演示实验和学生动手实验结合,兼有传统实验真实可信和多媒体的形象生动,才能更有效地提高学生的科学素养,达到全面发展的目的。

第三,多媒体不能代替板书。板书是课堂的灵魂主线,体现了教师的主导地位。学生能从教学板书中去体验课程的进度流程,把握重难点知识。若教师在一堂化学课中没有使用主板书或副板书,那么在这堂课中,学生就像一场电影的听众,课结束后不会有多少收获,况且这也严重阻碍了学生的独立自主发展。

第四,制作多媒体课件时,要富含化学学科的特征,不能违背科学性和教育性,语言表述精练简洁无废话,内容富有艺术表现力和感染力,尽力做到形象逼真又不失科学准确性。在制作的方式方法上,要满足教育者与被教育者的需求,体现学生主体作用。教师在制作多媒体时,要结合各种心理学特征,如:背景色与前景色的和谐搭配,画面转换节奏恰当合理,使表现手法新颖,构思巧妙,图文布局严密。多媒体课件不能违背学生的认知规律,不能让眼花缭乱的课件分散学生的注意力[3]。所以设计多媒体课件时,应对屏幕合理编排,布局,使界面简洁清晰。

参考文献

[1]秦如祥.教育信息化的概念、特征和目的[J].理论探索,2004(3),63

简述多媒体技术的特征篇8

关键词:CBiR颜色纹理形状语义

随着现代通信技术和多媒体技术的发展及internet的广泛普及,数字图像的数量出现了急剧增长。如何从这些海量的图像数据中快速有效地找出需要的信息,是一个非常有理论价值和实际意义的课题。实际上,图像检索已经成为目前国内外的一个研究热点。从图像检索发展的历程来看,主要经历了两个阶段:基于文本的图像检索和基于内容的图像检索。传统的基于文本的图像检索技术是通过关键字或自由文本进行描述,查询操作是基于该图像的文本描述进行精确匹配或概率匹配。基于文本的图像检索方式简单、易于理解,但检索时要指明文本特征。由于人工注释图像的主观性和不准确性等弊端,因此这种传统的图像检索方法并不能满足用户的需求。相对于基于文本的图像检索技术来说,基于内容的图像检索实现了自动化、智能化的图像检索和管理,主要利用了图像中的一些可视化信息,如颜色、形状、纹理等信息作为检索的途径,从而提高了检索的效率和准确性,因此得到越来越多人的关注。

1.国内外的研究现状

迄今已有许多关于内容的图像检索系统面世。国外经典的检索系统有iBm公司开发的oBic、Virage公司的Virage图像搜索引擎、麻省理工学院(mit)多媒体实验室开发的photobook、哥伦比亚大学开发的VisualSeeK和详ebSeeK,等等。相对于国外而言,国内在基于内容图像检索理论及应用的研究起步较晚,具有代表性的工作如下:清华大学计算机系结合国家863高科技研究发展项目“web上基于内容的图像检索研究”,于1997年研制了一个网络版基于静态图像内容的原型系统。国防科技大学多媒体开发中心设计开发了一个基于内容的视频新闻节目浏览检索newsVideoCaR。浙江大学从1995年开始进行多媒体图像检索的研究,开发了基于图像颜色的检索系统photonavigator,并将基于颜色的CBiR技术较为成功地应用于敦煌壁画数据库的研究和开发。云南大学信息学院设计开发了基于内容的商标图像检索系统等。

目前,基于内容的图像检索技术的研究热点[1]可分为四个方面:一是最初的图像检索研究主要集中于如何选择合适的全局特征去描述图像内容和采用什么样的相似性度量方法进行图像匹配。代表性工作包括:iBm开发的QBiC、mit多媒体实验室开发的photobook、哥伦比亚大学开发的VisualSeeK等。二是基于区域的图像检索方法,主要思想是通过图像分割技术提取出感兴趣区域的特征;代表性工作有:美国加州大学的netra、伯克利大学开发的Blobworld、斯坦佛大学和宾州大学开发的SimpLicity。尽管这些方法更加贴近于用户查询的思路,但由于图像分割的准确性差,因而导致检索准确率低。上述两个研究热点是以图像为中心的方法,无须考虑用户的需求。三是利用相关反馈技术,根据用户需求及时调整系统检基于内容的圈像检索方法研究和实现索,充分利用特征和相似性度量方法,进而缩小低层特征和高层语义之间的差距。代表性工作有:美国伊利诺斯大学开发的多媒体分析和检索系统maRS,picunter等;四是研究如何从多种渠道获取图像语义信息,如何将图像低层特征与图像关键词结合进行图像自动标注以提高检索准确率,如利用机器学习理论Bayesian,SVm,等等。

2.基于内容的图像检索系统构成

基于内容的图像检索过程[2]为:①预先分析、提取和储存各图像视觉的底层特征;②系统根据用户提交例图采用某种方法提取该图特征向量;③选取相似性比较方法,将该例图的特征与特征库中的特征进行比较匹配;④将与查询特征相似的图像,按相似度由大至小排列结果返回给用户;⑤系统反馈的结果用户可以筛选或者从候选结果中选择一个示例,经过特征调整后,形成一个新的查询,直至得到满意的结果。

3.基于内容的图像检索常用的关键技术

基于内容的图像检索技术[3]有很多种,颜色表达的是图像的全局特征,是图像的主要视觉性质,在人们对图像的印象中,颜色占了很大的比重;纹理也是一种全局特征,它描述了图像的表面性质,在检索粗细和疏密等方面有较大差别的图像时,利用纹理特征是一种有效的方法;形状特征更接近于目标的语义特征,具有一定的语义信息,可以帮助用户避开不相关的背景或不重要的目标,直接搜索与目标图像相似的图像。事实上,基于内容的图像检索方法需要综合颜色、纹理和形状的特征才能获得较好的效果。

3.1基于颜色特征的检索

颜色是图像检索中最先被采用的特征,主要方法有:①颜色直方图,②颜色一致性矢量,③颜色相关图,④颜色矩,等等。

颜色是图像的一种重要视觉特征,具有旋转不变性、平移不变性等优点,在基于内容的图像检索(CBlR)中应用广泛、性能显著。对此,人们提出了多种颜色特征提取及表示方法。其中,Swain等人提出的颜色直方图[4]在商用及实验系统中都得到了广泛应用。颜色直方图的比较是最基本方法,但缺乏图像的空间信息。而CCV方法不仅统计了整幅图像中各颜色的像素值,还统计了图像中各颜色最大区域的像素值,效果较好,但CCV并没有强调各颜色最大区域的形状及与背景的关系,于是Zachary等人又考虑了图像的边缘信息,提出了CCV―teV(thresholdedgeVector)算法[5]。颜色相关图法强调同一颜色在图像中的空间距离相关性,其检索效果比上述几个方法都要好,但计算量比较大。颜色矩算法主要是采用图像中各颜色的均值和方差作比较,处理简单,可用它作为图像检索的初检,为下一步的细检缩小搜索范围。

Zadeh提出的模糊集合理论[4],通过隶属函数的概念和方法描述来具有模糊性的过渡过程,将模糊集合理论及其衍生方法应用于CBlR具有较强的实用性。可以利用模糊C均值聚类算法(FuzzyC―meansaigorithm,FCm),对图像色彩在RGB空间中进行模糊聚类,通过计算每个像素对聚类中心(即代表性颜色)的隶属度值来构造模糊颜色直方图,从而实现彩色图像的分类检索。

目前基于颜色特征的检索已成为检索的一个重要手段,并提出了许多改进方法。总体来说,主要分为两类:全局颜色特征检索和局部颜色特征检索。按照全局颜色分布来索引图像可以通过计算每种颜色的像素个数并构造颜色灰度直方图来实现,这对检索具有相似总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。比如smith等提出了颜色集合方法[6]来抽取空间局部颜色信息并提供颜色区域的有效索引。

3.2基于纹理特征的检索

纹理是图像的重要特征之一,通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量,其本质是刻画像素的邻域灰度空间分布规律。纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。

Haley[7]等人使用Gabor小波模型提取了旋转不变性的纹理特征,该方法具有较高的复杂性。ojala[8]等人提出了一种具有尺度和旋转不变性的LBp纹理分析方法,但该方法仅利用了纹理图像的局部特征,没有考虑到图像的全局信息。manthalkar[9]等人采用离散小波包分解的方法得到了一种具有旋转和尺度不变的纹理特征,然而该方法在一定程度上丢失了纹理的方向信息。pun[10]等人提出了Log-polar方法,具有旋转和尺度不变的特性,但它将尺度变量转化为平移变量进行处理,破坏了信号的频率。Kourosh[11]提出了一种旋转不变性的多尺度纹理分析方法(Rim),利用Radon变换和小波变换得到了一种新的具有旋转不变的纹理特征,具有较强的抗噪能力,然而该方法不能同时具备平移和尺度不变性。

统计法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。最简单的统计法是借助于灰度直方图的矩来描述纹理。但这种方法没有利用像素相对位置的空间信息,为了利用这些信息,Haralick[12]等人提出了用共生矩阵来表示纹理特征。该方法研究了纹理的空间灰度级相关性,构造出一个基于图像像素间方向和距离的共生矩阵,并且从矩阵中提取出反差、能量、嫡、相关等统计量作为特征量表示纹理特征。tamura[13]等人基于人类视觉的心理学研究后提出了一些不同的方法来描述纹理特征,给出了几个不同的描述纹理特征的术语:粗糙度(coarseness),对比度(contrast),方句度(directionality),线性度(linelikeness),规则度(regularity),粗略度(roughness)等。

结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。Carlucci[14]曾提出一个使用直线段、开放多边形和封闭多边形作为纹理基元的纹理模型,其排列规则由一种图状语法结构定义。LuandFu给过一种树形语法结构表示纹理,他们将纹理按照9x9的窗口进行分割,每个分解单元的空间结构表示为一棵树。因为实际的纹理大都是无规则的,因此结构法受到很大限制。

3.3基于形状特征的检索

形状是刻画物体的本质特征之一,也是最难提取和描述的图像特征之一[15]。在人的视觉感知、识别和理解能力中,形状是一个重要的参数。形状特征具有不受目标颜色、纹理、背景变化影响的特点,它的重要原则是对位移、旋转、尺度变换的不变性。但不同于颜色和纹理等底层特征,形状特征的表达必须以对图像中物体或区域的划分为基础,形状特征的提取必须以图像分割作为前提。在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域。要想进行形状匹配,首先需要找到一种合适的描述方式。形状特征通常有两种表示方法:一种是基于边界轮廓特征的表示方法,该特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述、小波轮廓描述,等等,其中最典型的方法是傅立叶描述,另一种是基于区域特征的表示方法,如不变矩。前者只用到物体的外边界,而后者则关系到整个形状区域。无论提取哪一类形状特征,都必须分割图像。

3.4基于组合的多特征的检索

图像内容具有各种视觉特征及视觉对象的空间关系等,而人在观察图像时也不只是观察一个特征,而是会同时看到图像的颜色、形状等多个组合特征。正如前面所提到的,不同的特征有不同的矢量表示方法,即使是同一特征,如颜色特征也有直方图特征、颜色矩、颜色集等多种特征表示方法。在用单一特征进行检索时,可能出现非常相似的两幅图,但在语义上相差很大。而采用组合特征检索法时可以在颜色、纹理、形状等几种查询特征中选择两种或两种以上的特征进行组合检索。基于多特征组合检索便于用户更灵活、更有效地表达检索要求,提高检索的准确率。该检索方法可分两种情况进行:一种是异步组合检索,另一种是同步组合检索[16]。

3.5基于语义特征的检索

基于语义的图像检索需要解决两个方面的问题:一是必须提供高层语义的描述方式;二是必须有将低层图像视觉特征射到高层语义的方法。图像的视觉特征信息和用户视觉数据理解的不一致性,使得视觉底层特征和高层语义之间存在语义鸿沟。针对这一问题,许多学者进行了研究,amoid将图像的知识作用域分为狭义域和广义域两类,Hermes[17]等人使用了相似性技术直接从户外图像中推导场景的自然语言描述,Zhuang[18]等人提出了模糊布尔模型、概率布尔模型。这些方法在不同的场合分别显示了它们在语义表达方面的能力。

基于语义的图像检索方法,它允许用户在检索过程中用主观感觉来描述图像,这对于检索者来说,可以提高检索效率和准确性,但是“语义鸿沟”的存在,使得基于语义的图像检索仍面临着很大挑战。

4.基于内容的图像检索技术的展望[19]

目前,许多研究关注的是图像的特征提取及检索匹配算法,虽然方法很多,但没有一个统一的模型,需要易用的能对原始特征进行抽取的自动工具和获取逻辑特征的半自动工具用于开发大型、实用的多媒体信息检索系统。另外,还需要新的特征表示方法,如基于分形或小波的特征数学表示。目前使用的媒体,其格式和编码没有考虑到内容,只是针对颜色、像素、样值来编码。因此,从这些数据中抽取内容特征非常困难。在基于内容的检索中,由于检索算法比较多,需要对各种算法的检索结果进行评价,以比较其优劣。检索算法的评价方法能够在相同的条件下找出最佳算法,使不同的检索方法能更好地改进和提高,以使基于内容的检索方法朝更好的方向发展。

图像检索技术的研究是一个涉及多个领域的综合性课题,是对计算机视觉技术、数据库检索和管理技术、用户界面技术、数学建模技术、图像分析处理技术、计算机网络技术及人类心理学等各个方面成果的融合,只有这样,才能建立一个高效、快速、实用的图像检索系统[19]。

本文是对基于内容的图像检索中的关键技术进行了综述,由此可见:基于内容的图像检索技术是一种综合的集成技术,基于内容的图像检索是涉及多个领域的综合叉学科,随着信息技术的不断发展,基于内容的图像检索具有广泛的发展前景,但CBiR在某些方面仍需改进,颜色特征丢失了物体的空间信息,纹理特征不能充分地代表图像,不同的视觉可能获得不同的形状特征等。而如何实现准确的特征提取将是今后研究的一个方向,在多特征综合检索中如何实现算法匹配结果的归一化有待于进一步研究。此外,在检索过程中如何充分利用用户的信息反馈也将是一个重要的发展方向。

参考文献:

[1]史婷婷.基于内容的图像检索方法研究与实现[D].华南师范大学,2007,5:99-111.

[2]戴磊.基于内容的图像检索关键技术的改进策略[J].徐州工程学院信电学院学报,2010,11:121-139.

[3]陈桂兰,曲天伟,陈小丹.基于内容的图像检索技术[J].黑龙江科技学院计算机与信息工程学院学报,2009,2:222-301.

[4]解洪胜,王连国,孙玉芳.模糊颜色直方图在基于内容的图像检索中的应用研究[J].计算机系统应用,2009,5:139-141.

[5]黄祥林,沈兰荪.基于内容的图像检索技术研究[J].电子学报,2002,7:234-318.

[6]李心玲,李春杰.基于内容的图像检索技术[D].渤海大学信息科学与工程学院,2004,11:314-327.

[7]HaleyGm,manjunathBS.Rotation-invarianttextureClassificationUsingaCompleteSpace-frequencymodel[J].ieeetransonimageprocessing,1999,8(2):255-269.

[8]ojalat,pietikainenm.multiresolutionGray-scaleandRotationinvarianttextureClassificationwithLocalBinarypatterns[J].ieeetransonpatternanalysisandmachineintelligence,2002,24(7):971-987.

[9]manthalkarR,BiswaspK,ChatterjiBn.RotationandScaleinvarianttextureFeaturesUsingDiscretewaveletpackettransform[J].patternRecognitionLetter,2003,24(14):2455-2642.

[10]punCm,LeemC.Log-polarwaveletenergySignaturesforRotationandScaleinvarianttextureClassification[J].ieeetransonpatternanalysisandmachineintelligence,2003,25(5):590-603.

[11]KouroshJK,HamidSZ.Rotation-invariantmultiresolutiontextureanalysisUsingRadonandwavelettransform[J].ieeetransonimageprocess,2005,14(6):783-794.

[12]安志勇,王晓华,赵珊,周利华.一种图像纹理特征检索算法[J].西安电子科技大学学报(自然科学版),2007,6:409-410.

[13]孟繁杰.基于内容的图像检索技术研究[D].西安电子科技大学,2004,1:103-110.

[14]周筱连.基于内容的图像检索[J].安徽电子信息职业技术学院学报,2008,7:34-45.

[15]于海珠,司瑾.基于内容的图像检索技术[J].空军航空大学电脑知识与技术,2010,10:2-5.

[16]姚弘.基于内容的图像检索技术研究[J].南通职业大学电子工程系学报,2010,8:88-96.

[17]高勇英,章毓晋.基于目标语义特征的图像检索系统[J].电子与信息学报,2003,25(10):1341-1348.

简述多媒体技术的特征篇9

随着计算机和网络的普及,人们对数字图像信息的需求与日俱增,有关图像检索、存储方面的技术逐渐受到重视,并得到了快速发展。图像检索技术主要分为基于内容图像检索(CBiR)和基于文本图像检索(tBiR)两大类。tBiR是借用文本索引技术,手工将图像文件内容标注为一系列关键字,并对关键字建立索引。这种检索技术对图像处理的技术性要求不是太高,且操作方便,便于理解,在图像检索中应用得比较广泛,人们的研究重点已相应转移到了基于文本的图像元数据标准的制定上:希望通过对元数据标准的完善来更加准确地刻画图像的特征,以更好地满足检索需求。图像元数据继承并发展了对tBiR的研究,tBiR和图像元数据也因此一直有着较为紧密的联系。

而自从CBiR提出以后,其较强的技术性及在考古、医学等专业内的高度适用性很快引起了相关研究及应用领域人员的重视。CBiR突破了传统检索技术的局限,直接对图像内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索,同时融合了模式识别、计算机视觉及图像理解等技术,虽然目前仍只在一些专业领域内研究,但随着mpeG-7的推出,其使用范围大大扩展,人们对它的发展前景无疑是看好的。

然而在热点背后,我们也应该看到,无论是对元数据的研究还是对CBiR的讨论,以往都局限于各自的范围,CBiR和tBiR在被论述时常常是建立在两者不和谐的基调上,它们各自所对应的元数据集之间很难兼容,CBiR和图像元数据联系也相对薄弱。面对这样一种不协调的情况,笔者认为,应该站在一个新的相对统一的层面上,以用户需求作为出发点,重新看待两种图像检索技术及其相互之间的关系,而作为两种检索技术支撑基础的图像元数据则应成为它们相互补充和融合的平台——而不是区分它们的一个指标。为此,本文对几个有代表性的,使用较为广泛的图像元数据标准进行了考察,希望能在此基础上对两种图像检索技术的融合问题提供一个侧面的依据。

2、图像元数据及相关标准评价

数字图像可供检索的属性主要有以下几方面:①图像创建信息;②图像的颜色、纹理、形状等原始特征;③物体的布局、摆放形式;④对图像表现事件的描述;⑤特定的人、地点、事件;⑥和图像相关的主观感情[1]。作为图像元数据,无论是基于何种技术,在对图像进行描述时,都必须要尽可能准确地反映这些特征,即图像元数据的选择与制定要受到图像特征这一客观因素的制约,这是图像元数据与一般元数据的主要区别所在,下面就VRaCore,moa2,CDL,RLG,tmD,metS,mpeG-7等7种图像元数据标准作简要介绍。

2.1 VRaCore3.0

1993年,视觉资源协会(VisualResourcesassociation,VRa)为了更好地管理、组织和交换视觉资料资源,制定了视觉资源核心类目(theCoreCategoriesforVisualResources,简称VRaCore)[2],最新版本为3.0版(2000年6月),由17个类目组成,每个类目相当于其他元数据标准中的一个元素。

该标准建立目的是为了实现网络中图像以及视觉资源的共享,所以与主要用于存储的元数据集相比,这些元素在完整地描述一个图像资源方面并没有更多的优势[3]。该标准所涉及到的图像特征有相当一部分是属于语义层次上的,对图像颜色、纹理等原始特征的描述较少,可以较好满足用户根据图像抽象特征进行的检索,尤其适用于艺术类图像资源的管理。

2.2 moa2元数据

moa2(themakingofamericaⅡ)是数字图书馆联盟(DigitalLibraryFederation,DLF)进行的一个数字图书馆研究项目,它将图像元数据分为三大类:①描述性元数据,主要用于发现、识别和定位数字图像,对此moa2推荐使用已有标准(如:maRC、DC、eaD等);②结构性元数据,是与数字图像的呈现有关的元数据,用于描述数字图像之间的关系以及数字图像的显示格式等信息,包括描述一个完整对象的元数据和描述数字对象的元数据两类;③管理性元数据,主要是数字图像的产生信息、识别信息、版权信息等。该标准的重点在于结构性元数据和管理性元数据[2]。

moa2在管理性元数据方面较VRaCore而言,更为详细,对图像的描述也更为专业化;对图像之间的关系有比较完整的描述机制是其一大特色,这对图像资源建设中结构层次的建立很有益处。在对图像特征的表达上,对原始特征的描述有较强的技术性,这反映在管理性元数据和结构性元数据两类元数据的设置上;在对图像主题的描述方面,主要依赖于所采用的描述性元数据的标准。

2.3 CDL元数据

CDL(CaliforniaDigitalLibrary)是加利福尼亚大学提供的数字资源网络门户为其数字图像的质量、格式、存储和访问制定的一系列标准,基本采用moa2的元数据定义,也将元数据分为描述性、结构性和管理性元数据三类,重点也在后两类上[2]。对于描述性元数据,和moa2类似,CDL允许各个使用者采取不同的元数据集,只需Descriptivemetadatatype元素中说明采用的元数据集的名称种类。CDL将数字对象划分为简单数字对象和复杂数字对象,并为它们分别定义元数据,这一点与moa2的对象与子对象类似。

moa2和CDL都是注重管理性元数据和结构性元数据的元数据集,划分标准基本一致,以结构性元数据为例:两个标准中的结构性元数据有近一半的具体元素是相同的,只是分属子类别有所不同,除此之外,moa2对图像描述性的技术参数更多一些;而CDL则更符合结构性元数据的性质,将简单数字对象和复杂数字对象放在一个子集中,同时附以相应的参照,可以更好地反映图像文件之间层次关系。在对图像原始特征描述上CDL比moa2更进一步,技术性也有所加强,但主要是服务于图像管理和显示输出。这两个元数据标准在图像管理方面可以较好地满足用户要求,虽然是基于文本技术的,但是对图像原始特征的描述非常接近于专业的图像信息技术。

2.4 RLG存储元数据集

1998年,ResearchLibraryGroup(RLG)成立了一个工作组,专门研究存储性元数据。他们在DC和USmaRC的基础上提出了他们认为是对数据文件至关重要的16个元素。由于该元数据集主要作用于数字图像的存储,所以版权、使用权等方面的信息没有纳入在内,文件类型方面的因素也被酌情忽略[4]。

该元数据集主要满足的是图像存储需要,偏重于管理性元数据,其元素大多反映的是图像的原始特征,虽然技术性较强,但比较简单,没有涉及语义、概念层次上的特征,所以只能被一些专业的图像资源管理组织在图像存储时采用,不仅不适用于一般用户在互联网上查找图像,而且在图像检索专业领域内也无法推广使用。

2.5 niSoDraftStandard:DataDictionary-technicalmetadataforDigitalStillimages(tmD)

该标准于1999年由美国国家信息标准局、图书馆情报资源委员会和研究图书馆协会三个组织召开专家会议讨论制定。制定该标准目的在于推动图像处理中验证、管理、传输等技术的应用。与会专家分别从图像特征、图像制作与复制、图像确认与完整性三个方面提出了一系列供参考的元素,希望从中整合出最后的元数据元素集[2]。该元数据集与RLG存储元数据集有着类似的风格,但却更为详细和全面,技术性强是它最主要的特征。在对图像内容的描述上,有关图像原始特征的元数据更为全面,充分反映了图像在色彩、层次上的特点,向CBiR又跨进了一步,但由于它仍是基于文本的,这些参数并不能被大多数互联网用户所理解,只限于图书情报中图像资源管理及应用专业领域内的使用。

2.6 metadataencodingandtransmissionStandard(metS)

metS是数字图书馆联盟的一个项目,由美国国会图书馆,试图在moa2的基础之上,提供一个基于XmL的元数据编码格式来封装元数据,它可用于在不同的存贮库内的数字对象交换数据,也可以作为对数字对象本地化的输入、检索和显示的封装机制。

metS模板为数字图书馆的数字对象提供了一种灵活的描述性、管理性和结构性的元数据编码机制,可以表示各种各样的元数据之间复杂的链接关系,尤其有利于数字对象保存库之间的交换和数字对象的长期保存[5]。

可以认为metS是介于描述性元数据标准和管理性元数据标准之间的一种元数据标准,它既有反映图像主题方面的元数据,也有反映技术上的有关图像表示及传递要求的元数据,但主要还是偏重于前者,体现了tBiR表达图像概念层次上特征的优势。

2.7mpeG-7

多媒体内容描述接口(multimediaContentDescriptioninterface),简称mpeG-7,是活动图像专家组提出并制定的一种针对各类多媒体信息的描述标准[6]。mpeG-7是唯一的与CBiR相联系的图像元数据标准,它的出现对实现CBiR系统有很大影响,不仅使得图像检索的通用性和重复利用性得到了极大增强,而且为CBiR系统提供了一个完整的目标描述模型,使CBiR系统开发有了一个比较理想、完整、统一的底层构架。

mpeG-7使图像检索更为简单明快,基于mpeG-7的搜索引擎可以按标准对反映图像内容的参数进行定义存储,使CBiR的检索效率大大提高。但是mpeG-7也存在着一定隐患:一是图像特征描述参数本身尚未发展成熟,作为国际性通用标准,它所采用的参数是否具有标准性和通用性,仍值得商榷;其次mpeG-7并不能解决图像的特征抽取和匹配问题,特别是在概念层次上的特征无法自动生成,必须人工输入,仍然无法避免语义上的主观倾向性,也就是说,尽管mpeG-7将CBiR和tBiR放在了一个标准之内,但并没有使它们真正有机融合在一起,即它们各自原有的缺陷依然存在。

2.8 评述

从以上分析可以看出,前6种图像元数据标准是基于文本技术的,而与CBiR相联系的目前只有mpeG-7一种。基于文本的元数据标准又根据使用的范围和目的大致可以分为以描述图像概念层次上特征为主的主题性元数据标准(如VRaCore)、以描述图像原始特征为主的管理性元数据标准(如moa2、CDL、tmD)以及介于这两者之间的标准(如metS)。其中,mpeG-7可以称得上是最新、发展水平最高的一种图像元数据标准,而且tBiR和CBiR也已被统一到该标准的内部中来,虽然它还存在一些不成熟的地方有待完善,不过它的出现已经推动了两种图像检索技术的融合,而且随着多媒体技术,尤其是图像描述与检索中关键技术的发展,mpeG-7定会在实现与完善两种图像检索技术的融合中起着至关重要的作用。

3、从图像元数据标准看tBiR与CBiR

图像元数据是图像检索的基础和依据,直接关系着检索入口,它所采用的图像特征,对用户检索采用的相应策略和效果有着直接影响。一定程度上,元数据标准的制定可以促进检索技术发展;另一方面,图像检索技术的实现和使用情况也反映了元数据标准是否合理:这两方面是互相影响、互相牵制、互相促进的。

目前基于文本的图像元数据标准还是占大多数,应用广泛,可以满足描述、管理等多方面需求,现有的大多数图像搜索引擎所采用的都是基于文本的检索方式;而CBiR由于缺少相应标准,总体来说尚未成熟,大多数基于内容的图像检索系统采用的元数据集各成体系,相互之间很难兼容。但随着mpeG-7的推出以及图像元数据标准的发展,相关的技术问题会逐步得到解决。所以,从应用情况来说,CBiR和tBiR各有其优势所在。

从两种检索技术自身来看,它们也是各有特点,由此也带来了它们各自较为固定的用户群。作为图像领域研究热点的CBiR在技术上无疑比tBiR更为先进,在满足用户需求上的优势也是显而易见。首先,描述图像资源时,采用的是颜色、纹理、形状等特征,更为直观和客观,避免了tBiR中资源管理者著录时所带有的主观倾向[7];其次,在医学、考古等专业领域内,根据纹理、颜色等特征进行的检索需求较多,这是tBiR所难以解决的;再次,tBiR虽然也可以描述图像的部分原始特征,但在应用上因其技术性较强因而存在一定难度,非专业人员往往难以理解其内在本质,对于普通用户来说,CBiR可能更容易满足他们根据图像原始特征的图像检索,这对他们来说更为简单方便。可以看出,tBiR在图像管理方面更为有利,CBiR则在图像检索方面有更大的发展空间。

但也应该看到的是,虽然CBiR在技术和理论上更为先进,但它并不能解决所有的图像检索问题,比如它暂时还不能较好地揭示图像在语义层次上的内容,而这恰恰是tBiR的长处所在,这也是mpeG-7虽然是以建立描述基于内容的元数据为目的,但在标准中也纳入了基于文本的主题性的元数据的原因之一;另外,CBiR在存储和检索图像时,要计算颜色、纹理、形状等表征,必要时还需要对这些数据进行存储,这就比tBiR对计算机以及网络技术有着更高的要求,尤其是在图像资源较为庞大的时候,往往由于硬件以及计算速度的限制难以投入实际应用。

综上所述,我们可以看到用户对图像检索的需求主观上要求tBiR与CBiR相结合,从图像元数据标准的现状和发展过程来看,客观上也体现了两种图像检索技术的融合趋势,而以图像元数据为平台,是可以实现这一融合的(mpeG-7的出现就充分说明了这个问题),而具体如何实现,以及是否还有其他更好的途径,也许应该成为我们今后要关注的问题。

参考文献

[1]Johnpeakins,margareteGraham.Content-basedimageRetrieval-areporttotheJiSCtechnologyapplicationsprogramme[eB/oL].unn.ac.uk/iidr/report.html,2004—03—06.

[2]袁莉,张晓林.数字图像的元数据格式[J].大学图书馆学报,2001,(2):27—30,41.

[3]VRaCoreCategories,Version3.0-aprojectoftheVisualResourcesassociationDataStandardsCommittee[eB/oL].vraweb.org/vracore3.htm,2004—04—06.

[4]RLGandpreservationworkingGrouponpreservationissuesofmetadataFinalReport[eB/oL].rlg.org/preserv/presmeta.html,2004—04—07.

[5]马蕾.元数据及其封装标准metS研究[J].情报技术,2002,(2):56—57.

简述多媒体技术的特征篇10

关键词:多媒体;数据库;面向物联网;检索

中图分类号:tp391文献标识码:a文章编号:2095-1302(2013)02-0065-02

0引言

伴随着信息高速公路的兴起,多媒体正在深入我们的生活,物联网时代也离我们越来越近。在对文字、图形、图像、视频及声音等多种媒体信息进行综合处理时,传统的信息检索已经不能满足人们的需求,信息的查找和检索要求也越来越高。

1面向物联网的多媒体数据库特点

多媒体数据库是多媒体技术与数据库技术相结合而产生的一种新型数据库[1],是指数据库中的信息不仅涉及各种数字、字符等格式化的表达形式,而且还包括多媒体的非格式化的表达形媒体数据的存储、读取、检索等功能的数据库系统[2]。多媒体数据库继承了传统数据库的一些优点,但数据管理要涉及到更复杂的处理。与此同时,继计算机、互联网之后,物联网带来了信息技术的第三次革命,经过综合分析,物联网环境下的多媒体数据与传统的数据相比,往往具有一些独立的特性。

1.1数据的非结构化

声音、图像、影视等数据基本上都是二进制串。这些数据从其本身看不出任何结构,因此称为非结构化数据。各种媒体的数字化存储形式称为多媒体数据。因为这些数据往往通过传感器输入计算机,又称传感器数据。媒体数据如果不另加一些描述和解释,一般很难利用对数据的描述和解释。这些特征使得传统的关系型DBmS难以有效地管理这些类型的数据,从而促使我们去研究、引入新型的DBmS系统。

1.2实时性和快速更新

物联网技术是基于各种感知技术的应用。其上部署了多种类型传感器,不同类型的传感器捕获的数据内容和数据格式各不相同。由于每个传感器都是一个信息源,采集信息在一定频率的周期性环境下,传感器获得的多媒体数据也不断更新,具有实时性。

1.3数据量大且维度高

物联网是一种建立在互联网上的泛在网络。物联网技术的重要核心仍在互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去[4]。多媒体数据量一般都很庞大。虽然采取了数据压缩技术,但压缩后的数据量还是很大。在物联网上的传感器定时采集的信息需要通过网络传输,所以,这样的海量数据对多媒体数据库的存储及检索提出了更高的要求,同时还要考虑海量数据传输标准的统一。

2面向物联网的多媒体数据库检索

多媒体数据包括文字、图像、视频、音频等不同格式的信息内容。随着互联网的发展,传统的基于结构化的关系数据库检索方式并不适合非结构化的多媒体数据的检索,人们对多媒体数据的检索提出了新的要求。基于内容的检索就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据来。它可以在更深层次更有效地利用存储的多媒体信息。

基于内容的检索是一个逐步求精的过程[3]:第一是从媒体内容中提取信息线索。基于内容的检索直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征进行索引,并进行检索。第二是相似性匹配,就是将查询特征与特征库中的资料按照一定的匹配算法进行形似匹配,把满足一定相似性的一组候选结果按相似度大小排列放回给用户。第三是特征调整。对于系统返回的查询结果,用户可选择满意结果,或从中选择一个示例,经特征调整形成新的查询。第四,逐步缩小检索范围,直到用户满意。其具体过程如图1所示。

2.1基于内容的图像检索技术

基于内容的图像检索技术是指利用一定的算法提取图库中图像的颜色、纹理、形状等特征进行检索。用户提供一个样例图像,系统提取样例图像的特征,然后跟数据库中的所有图像的特征进行比较,并将与样例特征相似的图像返回给用户。

2.2基于内容的视频检索技术

视频主要由镜头组成,镜头由一系列连续的帧组成,帧是一幅静态的图像,是组成视频的最小单位。基于内容的视频检索的关键步骤是视频的分割,分割完成后,也就确定了每个镜头的开始和结束位置。每个镜头中的一系列帧的差异很小,可以从中选择出关键帧来描述镜头的关键图像,对该镜头的检索可以转换为对该关键帧的检索。由于视频中的关键帧就是一副静态的图像,因此,可以使用类似图像检索的方法进行检索。

2.3基于内容的音频检索技术

基于内容的音频检索可以提取音频数据中的特征信息,对不同音频进行特征匹配,从而达到检索的目的。一般以韵律、和音、旋律以及音调、响度、音色等感知特征进行特征值检索,根据查询索引和数据库中音频索引之间的相似性,来对音频片段进行检索。除实际发声词汇外,包含在语音中的其他信息,如发音者的身份和情绪都有助于语音索引和检索。

3面向物联网的多媒体数据检索策略

针对多媒体数据的特点,分析物联网环境中信息检索遇到的问题,一方面可以考虑提高服务器的处理能力、扩充服务器的存储容量,另一方面,则可以考虑优化查询策略以提高检索速度。优化策略可以从三个方面来考虑。

3.1临时表缓冲策略

对数据表操作时,传统的方法是直接对表进行关系运算,然后从中选择满足要求的结果集。而采用临时表的做法,则是先对大数据表进行查询,将满足条件的数据预先读取到临时表中,然后将对源数据表的访问转换为对临时表的访问。将操作的数据集预先读取到临时表中会给系统带来额外的开销。但是,在一般情况下,临时表中的数据集要远小于源数据表中的数据集,因此,在对于海量数据进行连续操作或者频繁访问时,采用此策略可提高系统的总体性能。

3.2数据的降维处理策略

人们在物联网世界获得的数据量正以指数形式快速增长,为了减轻系统检索的负荷,可以对数据进行降维处理。结合具体业务需求,在尽可能多的保留初始数据的前提下,将数据的维数降到一个合理的大小,再将降维处理后的数据送入信息处理系统,这对海量数据的检索是行之有效的。降维算法主要分为线性降维算法和非线性降维算法。降维的实质就是寻找投影变换,即从高维空间到低维空间的变换。同时,降维处理也是一些智能算法的必要步骤,该策略对物联网数据检索中的智能处理是很有帮助的。

3.3情景感知的语义检索策略

物联网是通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,把任何物品与互联网连接起来,进行数据交换。基于感应网络,可以从大规模的海量数据中获取用户的位置数据、邻接数据、通信数据和行为数据等,并对如此海量的移动数据进行实时挖掘,推导出蕴含在数据中的规律,感知用户的情景环境,发现用户的行为模式,将最能满足用户需求的结果提交给用户,以实现用户所得即所需,从而有效提高物联网信息检索的质量。

4结语

随着物联网技术的应用发展,人们对此环境下多媒体数据库的检索需求也越来越迫切。“数据灾难”成为急需解决的问题。利用云计算、模式识别等各种智能技术,可以从传感器获得的海量信息中检索、加工处理出有意义的数据。随着理论研究和时间探索的不断深入,面向物联网的检索技术一定会更加完善,充满智能的物联网多媒体数据库的应用也将逐步推向各个行业和领域。

参考文献

[1]巩晨静,祝洪珍,李德云.多媒体数据库技术综述[J].电脑知识与技术,2009(18):374-375.

[2]黄志军,曾斌.多媒体数据库技术[m].北京:国防工业出版社,2005.

[3]叶福军.多媒体数据库中基于内容的检索技术[J].福建电脑,2008,24(10):34-34.

[4]张铎.物联网大趋势[m]北京:清华大学出版社,2010.