首页范文大全地理信息数字化描述方法十篇地理信息数字化描述方法十篇

地理信息数字化描述方法十篇

发布时间:2024-04-25 20:24:19

地理信息数字化描述方法篇1

[美键词]元数据 数字图书馆

1元数据产生的背景

随着计算机网络技术的飞速发展,电子出版物不断增多,正在以呈几何级数不断膨胀;图书馆的馆藏结构发生重大变化,电子资源和网络资源将成为图书馆馆藏的主体。因此对海量信息资源进行有效的组织和管理因而日显重要要,元数据的出现有其必要性。

2 元数据的概念、特征、类型、格式、作用与结构

2.1概念与特征

元数据的英文名称为metadata。迄今为止对于元数据人们并没有完全统一的定义,最常规的定义为:元数据就是关于数据的数据(dataaboutdata)。在哈佛大学数字图书馆项目里,其定义为:元数据是帮助查找、存取、使用和管理信息资源的信息。在这个定义里,元数据既适合于电子资源,又适合于非电子资源;不仅包括编目信息,也包括其他管理和存取资源的信息。国际图联iFLa的定义为:“元数据就是关于数据的数据,即指任何用于帮助网络电子资源的识别、描述和定位的数据。”

元数据具有三个特征:(1)元数据是一种编码体系,它能根据某种标准来对文献中的词及其他元素进行编码,从而揭示、描述文献的这些基本元素。(2)元数据不仅可以描述数字化信息的内容特征,而且可以描述数字化信息的基本属性,使得数字化信息得以被有效传播、交流和利用。(3)元数据为数字化信息资源建立了一种机器可理解的框架。

2.2类型与格式

在数字图书馆系统中,常用的元数据有五种类型:①管理型元数据是用来管理与支配信息资源的元数据,如信息收集、版权与翻版跟踪、排架信息、等;②描述型元数据是用来描述与识别信息资源的元数据,如记录编目、寻找帮助、专题等;③保存型元数据是与信息资源保存管理有关的元数据,如资源的物质条件、数字资源的保存行为);④技术型元数据是与系统怎样运行有关的元数据,如硬件与软件,数字化信息的格式等;⑤使用型元数据是与信息资源用户层次和类型有关的元数据,如用户记录、用户使用跟踪等。

网上数字资源比较常用的元数据格式有:①艺术作品描述类目。主要应用于艺术作品、珍善本和其它三维作品。②建筑文献基础/建筑图样咨询组格式。作为描述建筑图样类目的指南,能为描述与访问建筑文献信息提供指标。③美国视觉资料协会核心类目。主要用来描述网络环境下的艺术、建筑、手工艺等艺术类视觉资料。④艺术与文化遗产数据输出格式。用于文化艺术类作品及珍善本等的著录。⑤美国机读目录格式USmaRC格式是目前适用于书目记录数据系统最完善、类目最复杂、标准最严密的元数据格式。⑥都柏林核心数据(DublinCore)。都柏林核心数据类目是为改善万维网资源的索引与检索而提供的基本信息或者说元数据类目

2.3作用

元数据是数字信息资源组织的重要工具。它在数字信息资源组织方面的作用主要体现在以下几个方面:(1)描述作用(Descrip-fion)。它最基本的功能就在于对信息对象和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。(2)描述作用(Loca.tion)。元数据包含有关网络信息资源位置方面的信息,由此便可确定资源的位置之所在,促进了网络环境中信息对象的发展和检索。(3)发现作用(Discovery)。在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。(4)评估作用(evaluation)。元数据提供有关信息对象的名称、内容、年代、等基本属性,使用户在无需浏览信息对象本身的情况下,就能够基本了解和认识信息对象,参照有关标准即可对其价值进行必要的评估,作为存取与利用的参考。(5)选择作用(se.1ection)。根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够作出对信息对象取舍的决定,选择适合用户使用的资源。

2.4结构

对于一个元数据格式来说,它由多层次的结构组成,具体如下:(1)内容结构(ContentStructure),对该元数据的构成元素及其定义标准进行描述。(2)句法结构(SyntaxStructure),定义metada-ta结构以及如何描述这种结构。(3)语义结构(SemanticStruc―ture),定义metadata元素的具体描述方法。

3元数据在数字图书馆中的应用

元数据在数字图书馆中的应用主要表现在以下几个方面:(1)对信息资源进行组织与检索。要有效利用数字图书馆的数字收藏,必须对其进行著录与标引,得到提示其内外部特征的元数据,科学地将其组织起来,以便用户快速、准确地找到所需信息。(2)作为设计与维护数据库的工具。在进行数字图书馆的数据库设计时,设计人员须查看每个可能成为数据来源的系统的物理结构、逻辑模型和业务规则等,这个进程就是元数据的搜集进程。(3)作为用户使用数字图书馆的向导。通过公布描述数据库的元数据,可使用户无需浏览信息对象本身,就能对信息对象有基本了解和认识,从而作为取舍的标准。

参考文献:

地理信息数字化描述方法篇2

关键词:元数据;异构数据库;医疗共享信息;查询系统

中图分类号:tp311文献标识码:a文章编号:1006-1959(2017)14-0012-02

随着医疗行业信息化建设推进,各大城市中心医院逐步建立起较成熟的HiS、LiS、paCS、RiS等信息系统。这些系统多为不同的业务系统,都是由不同厂家开发的独立系统,使用的数据库产品不同,具有异构性,而且数据库设计也不同,具有数据异构性,导致同一行政区域的不同医院、不同系统之间数据和资源不能有效共享,医疗数据利用低。通过元数据技术将不同业务系统资源有机整合,以满足对医疗信息共享的需求。

1元数据概述

元数据是“描述数据的数据”,或者“关于数据的结构化数据”。元数据是用来描述数据本身的内容特征和其它特征的数据[1]。元数据的目标主要有两个方面:①简单高效的描述、保存、组织和管理大量信息资源;②使信息资源的检索、发现、定位和共享更加便利与高效[2]。元数据的基本结构由内容结构、句法结构和语义结构组成。内容结构用于定义元数据的构成元素;句法结构用于定义元数据的格式结构以及如何描述这种结构;语义结构用于定义元素的具体描述方法。

元数据是医疗信息资源组织和处理的基本工具,它为各种形态的医疗数字资源提供了规范、普遍的描述方法,元数据整合中开放描述和互操作性已成为一个基本要求[3]。

2医疗共享信息查询系统模型

医院的信息系统存在大量异构的数据库,异构性表现在多个方面,如使用不同的数据库产品、数据库表的设计不同、存储的数据类型不同、运行环境不同等。使用元数据技术对异构数据库进行统一规范描述,实现共享访问这些异构数据库的数据。用户通过统一的元数据查询语句完成查询操作,实现数据的透明访问,同时保持了本地数据库的自治性。

区域医疗共享信息查询系统(mQS),采用B/S三层架构,即系统由表现层、业务逻辑层、数据层组成,见图1。

表F层为该查询系统的用户查询接口,提供统一查询界面和显示查询结果。业务逻辑层完成查询请求的处理和查询结果封装,该层由元数据管理模块、转换器、包装器组成。元数据管理模块是系统核心部分,本系统的元数据包括全局数据字典、局部数据字典信息组成,描述最小颗粒为各数据表的字段,并创建描述字段统一的词汇表,以解决数据异构问题。全局数据字典包括查询关键字与局部数据库基本表的映射关系。局部数据字典包括数据库产品名称、访问地址和帐号等信息,以解决异构分布问题。转换器将全局数据库元数据查询逻辑语句进行分解转换,转换为不同异构数据库的查询子语句。包装器将各个数据库的查询结果进行集成处理。数据层是由异构数据库组成,保存大量的医疗数据信息。

数据查询流程如下:用户提交查询请求,转换器从元数据管理模块获取数据库映射关系和元数据信息,将用户提交的元数据逻辑查询语句转换成各异构数据库的查询语句并发送给相应的数据库执行。查询的结果通过包装器进行合并过滤处理并返回给显示界面。

3系统实现的相关技术

XmL技术。可扩展标记语言(XmL)是在1998年由万维网联盟制定的一种源标注语言,主要是为了解决超文本标记语言(HtmL)无法满足越来越多的网络数据交换的需求[4]。使用XmL技术可以方便地为数据定义或扩展自定义的描述术语以及这些术语间的结构化关系,良好的自描述性和跨平台特点使其成为元数据非常理想的描述语言。mQS以查询数据为中心使用XmL对系统的全局字典进行描述,部分代码如下:

以上XmL代码实现查询关键字“患者姓名”跟数据库的映射,其中属性dbname为异构数据库的名称,tbname表示表的名称,colname表示字段名称,type表示该字段的类型。

Dom文档对象模型是w3C组织推荐的处理可扩展标志语言的标准编程接口[5]。mQS系统使用Dom技术根据用户提交的查询关键字读取解析XmL文档,获取异构数据库的元数据信息,再结合局部数据字典元数据生成相应的不同SQL查询语句并执行得到结果。

JSp+Servlet+JavaBean技术。JSp技术是新一代的脚本技术,能够帮助网页设计和开发人员简单且高效的进行动态网页的开发[6],JSp动态网页技术实现mQS与用户的交互界面,用于用户查询请求的提交和查询结果的显示,Servlet服务器端程序负责查询请求的任务分发,JavaBean完成业务逻辑处理,包括访问数据库和查询结果的封装。

4总结

本文提出了一种基于元数据的医疗共享信息查询系统(mQS)解决数据源的异构问题,用户可以通过系统的统一用户接口进行查询,并且从技术的角度分析了系统功能实现的可行性。但并未对异构数据库的元数据提取进行深入探讨,有待进一步完善。

参考文献:

[1]李小涛,胡晓惠,郭晓利.基于元数据的复杂信息共享技术[J].系统工程与电子技术,2015,37(3):700-706.

[2]赵华,王健.国内外科学数据元数据标准及内容分析[J].情报探索,2015(2):21-24.

[3]李萍.医疗数据质量的问题探索和解决模式[J].计算机应用与软件,2013,30(8):217-219

[4]杨旋,朱辰,周小甲,等.基于XmL的医院信息集成平台的研究与应用[J].医院数字化,2016,31(12):82-85.

地理信息数字化描述方法篇3

【摘要题】图书情报工作论坛

【英文摘要】thispaperdiscussestheimportance……

1.对网络信息资源编目的必要性

图书馆对网络信息资源进行编目的意义在于:一是把网络信息资源及其服务有机地纳入到图书馆服务中来,这意味着图书馆利用网络信息资源补充已有馆藏和提高图书馆满足读者信息需求的能力;二是运用和移植图书馆学、情报学在组织文献信息和书目控制文献的研究成果和实践经验,提高网络信息资源的有序化程度。

1.1随着数字化革命的深入和internet的飞速发展,网络信息资源呈现出几何级数量增长,据国外最新研究结果表明,因特网上可编索引的网页已超过10亿页,仅此一项,其增长规模已超越了现有的非网络资源,信息资源从内容到形式都发生了质的变化。网络信息资源同非网络资源相比,具有地理上分散、组织上无序、数据类型多、变幻多端的特点。

无序扩张的网络信息资源,一方面使网上信息包罗万象,良莠不齐,信息分布、信息组合错综复杂,信息污染严重;另一方面,广大用户,即信息的需求者,面对如此浩瀚的信息海洋,无法快捷地获取自己所需的信息,对检索和获取信息的低效感到无奈。解决二者之间的矛盾,为用户提供便利的信息获取途径和方法,就图书馆而言,最为有效的方法即是将网络信息资源纳入图书馆的服务当中,对其进行编目管理。

1.2网络中存在着巨大数字化信息,用户要想快速准确地检索到所需信息,就需要一个机构能够承担起网络信息的整序工作。目前,以网络搜寻为目的的搜索引擎的出现(如国外的Yahoo、infoseek、altavista,国内的网易、搜狐等),虽然在浩如烟海的网络资源中起到了一定的导航作用,由于其处理方式是通过自动调用程序在网际网络上选取网页,然后使用全文检索的技术,以自动拆字词作为索引的方式,建立其数据库作为检索的基础,这种方式的不足之处在于其查全率高,但查准率低,以及缺乏一致性的用户界面。检索出的篇目太多,有时甚至有成千上万篇,而其中真正有用的信息并不多。

这种情况下,图书馆应发挥自己的职业优势,图书馆对非网络信息资源的编目已有了丰富的经验,将其应用于网络信息资源的编目将起到事倍功半的效果,由图书馆对网络信息资源进行选择、加工、整理,对网络上的各种信息进行筛选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一。

2.网络信息资源编目的可行性

尽管网络信息资源具有增长迅速、数量巨大、流动性大、稳定性小的特点,它与非网络信息资源仍具有共性,可以这样比喻,整个因特网就像一个巨大的图书馆,各个网站就是种类不同的图书,而每一个网页就是图书中的一页,共性的存在,是对网络信息资源进行编目的前提条件。

美国oCLC(onlineComputerLibraryCenter)对网络信息资源的编目进行了有益的尝试,并且取得了重大的进展。oCLC从1991年开始就致力于应用计算机技术对因特网上的资源进行精心筛选和标引。通过试验,证实了maRC和aaCR2可适用于网络信息资源,同时提出了修改完善maRC建议,在USmaRC中新增加了856字段—电子网址和索取字段。由于maRC本身的局限性,如结构复杂、著录项目过于烦琐,要求专业性强,要受过专门训练的编目员来做等等,虽保证了著录的精确性,但著录速度慢,工作效率低,无法满足海量的网络资源的整序需求。

于是人们开始转向研究一种新的著录项目,一种用以描述网络信息资源的格式和工具。“元数据”这一概念被及时推出,元数据的产生为网络信息资源的组织提供了重要手段。到目前为止,世界上已开发出并付诸使用的元数据有许多种,如都柏林核心元数据(DublinCore)、频道定义格式(CDF)、艺术作品描述目录(CDwa)、资源描述框架(RDF)等等。

有了高效实用的网络信息描述工具以后,针对网络信息资源编目的特殊性,1998年8月oCLC研究署向研究顾问委员会提交了CoRC(CooperativeonlineResourceCatalog)计划的构想,这一计划尝试将传统的图书馆编目规则与技术—文献信息的选择、描述、标引及利用等运用于网络信息的存取,oCLC于2000年7月正式推出了CoRC产品,并向美国和全世界推广。CoRC与商业的搜索引擎不同之处在于它有人工干预,网络资源是由图书馆员挑选的,它的目标是将传统的图书馆编目技术与先进的计算机技术相结合形成一个新系统,能够明显优于现有的搜索引擎。

3.编目工具

图书馆员一向以善于组织信息著称,我们曾经有效地完成了印刷型资料的编目组织工作,当然有能力完成网络信息资源编目的使命。

目前图书馆界对网络信息资源编目的工具以maRC和DC为主,对网络信息资源进行著录的格式应是基于XmL的DC描述。

3.1maRC

maRC格式是美国国会图书馆从1963年开始研究应用计算机对图书进行编目的工具,1971年,美国国家标准局将USmaRC确定为美国国家标准,1977年,国际图联(iFLa)UnimaRC格式,中国根据UnimaRC的框架体系和内容,结合中国的特点编制了CnmaRC。

maRC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,它开始主要是针对印刷型书本的描述,对网络信息资源进行编目,是通过在maRC中增加856字段,即“电子资源地址与存取”,并采用5XX字段记录资源格式的方法来进行的。它的数据结构严密,能很好地描述电子信息,尤其是在检索点的选取原则上,能确保其数据元索组成具有统一性,有利于资源交换。此外,这种经过编目人员过滤、筛选过的信息,确保了数据描述的可靠性、完全性和精确性。

856字段主要记录被著录的数字对象或与之相关的其它电子资源的存储地址和存取方式,是可重复、必备字段,包含27个子字段。专业水准的分类和准确的记录这两大特色将使其能在internet中占有一席之地。但用maRC格式编目internet的成本相当高,由于网络信息地址时常更改,为了维护856字段链接的有效性,需要耗费相当多的财力、人力和时间,编目的速度远远跟不上网络信息资源增长的速度,因此这种高成本的编目方式只适用于编目一些最重要的网络资源。

3.2DC

目前对因特网上的信息资源编目用得最多的著录工具是DC(DublinCore)——都柏林核心,它是一项描述信息资源的国际标准,1995年3月在俄亥俄州的都柏林核心研讨会上,52位来自图书馆、计算机和网络方面的学者和专家共同探讨了基于网络信息资源的描述问题,创建了都柏林核心集。

DC包含15个元素,依据其所描述内容的类别和范围可分为三组:a、对资源内容的描述;b.对知识产权的描述;c、对外部属性的描述。对资源内容描述类包括:title、Subject、Description、Source、Language、Relation、Coverage。对知识产权的描述包括:Creator、publisher、Contributor、Rights。对外部属性的描述包括:Date、type、Format、identifier。

DC同maRC相比具有以下优点:

·

格式简单且易于使用:因它只有15个元素,易于理解,适合各种背景的人群使用。

·

具有通用性:15个元素可自由选用及重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。它支持任何内容的资源描述,使得跨学科的语义描述有了可操作性。

·

具有兼容性:DC通过RDF框架形成了资源描述的基础,对基于weB的元数据提供了灵活的语法基础,如可内嵌入HtmL、XmL语言,各种浏览器均支持它。

·

具有可扩展性:可根据实际情况,通过使用限定词能够实现扩展描述的方法。

第七次都柏林核心研讨会后,对DC进行了重大改进,DC与maRC之间映射更加一致,接近一一对应于maRC的许多字段,有利于将DC元数据记录集成到图书馆原有的基于maRC的opaC系统。

3.2XmL

图书馆在对网络信息资源编目过程中,采用DC作为网络信息资源的著录工具、XmL文档结构作为著录格式是使网络信息资源有序化的理想模式。

XmL是一种区别于HtmL和SGmL的可扩展标识语言,它不象SGmL那样复杂,又能象HtmL那样可在weB上传送,它已广泛应用于互联网上。XmL是一种类似于HtmL,被设计用来描述数据的语言,XmL提供了一种独立的运行程序的方法来共享数据,它是用于自动描述信息的一种新的标准语言,它能使计算机通信把internet的功能由信息传递扩大到人类其他多种多样的活动中去。XmL由若干规则组成,这些规则可用于创建标识语言,正如HtmL为第一个计算机用户阅读internet文档提供一种显示方法一样,XmL也创建了一种任何人都能读出和写入的世界语。

XmL作为新的一代网络语言,它具有良好的可扩展性,它允许各个不同的行业根据自己独特的需要制定自己的一套标记;它还具有良好的自描述性,能够描述信息本身的含义甚至它们之间的关系;它遵循严格的语法要求,增加了网页的文档的可读性和可维护性,提高了浏览器的时间空间效率;它便于不同系统之间信息的传输,XmL是一种非常理想的网际语言。

XmL文档最好以一个XmL声明作为开始,一个完整的声明是这样的:

附图

下面是一个基于XmL的DC描述的一个例子,

<?XmLversion="1.0"encoding="GB2312"standalone="no"?>

<论文>

<HeaD>

<title>DublinCore形式书目</title>

……

<BoDY>

<dc:title>internet环境下电子化图书馆信息管理系统</dc:title>

<dc:Creator>林雪英</dc:Creator>

<dc:Subject>图书馆信息管理</dc:Subject>

<dc:Description>…</dc:Description>

<dc:Date>2002—5--?</dc:Date>

<dc:type>学术论文</dc:type>

<dc:Source>http:///publicat/qbts/004/18.htm</dc:Source>

<dc:Language>Chi</dc:Language>

<dc:Relation>福建科技</dc:Relation>

<dc:Rights>http://</dc:Rights>

</BoDY>

</论文>

每个著录项目均为可选项目,可重复标记,数据是可变长的,书目信息与全文版电子资源的链接是通过<dc:Source>……</dc:Source>来实现的。

4.图书馆对网络信息资源进行编目的现状

网络资源编目既然是传统文献编目在网络环境下的延伸,而网络资源又具有数量大、增长快、稳定性小的特点,实行联机合作编目是理所当然的必由之路。在这方面,美国做出了有益的尝试。美国的oCLC在积其数十年合作编目丰富经验的基础上,顺应网络信息资源发展的趋势,及时推出“合作联机资源目录”——CooperativeonlineResourcesCatalog,即CoRC构想。

4.1CoRC的概况。它的目的是在自动化编目工具与图书馆合作有机结合的基础上,建设共享的网络资源数据库。目前它已建立4个数据库:资源记录数据库、规范数据库、寻路器数据库、杜威十进分类法数据库,其中资源记录数据库相当于一般的书目数据库,以DublinCore或maRC形式提供网络信息,寻路器数据库则以网页形式揭示网络资源的书目信息及其与资源的超文本链接。

4.2 CoRC的功能。

·

快速生成书目记录。图书馆利用CoRC编目时,只需根据编目人员提供的URL,系统会自动搜索、获取相关域名的网页,为相关网页及其所有链接生成一系列的资源记录,而且可定向获取具有eaD与tei头标的网页,并自动生成书目记录,CoRC工具在获取某一网址后,能自动过滤出关键概念与关键词作为索引词。

·

自动标引分类法类号和主题词。CoRC安装了丰富的机助编目工具,如杜威十进分类法、美国国会图书馆标题表、美国国家医学图书馆标题表等,以减轻编目人员的标引工作强度。

·

通过合作与机器协助的方法维护记录的URL(统一资源定位器)。在CoRC系统中,由成员馆分担维护URL,当用户的记录包含无效的URL时,CoRC的自动链接维护工具会通过“状态屏幕”及时通知用户,由用户进行核查、更正,从而保证了URL的正确性。

4.3CoRC的启示。

目前,国内许多有实力的图书馆已经开始对网络信息资源加以收集、整理加工,开始了对网络资源编目的有益的探索,但是同时存在着分散、不统一的特点,作为发达国家的美国,合作联机编目已走在我们的前面,我们的问题不再是如何对网络信息资源进行编目,寻找什么样的工具编目,而是应该直接与国际接轨,充分利用CoRC系统这一先进的工具。

5.结束语

网络信息的极大丰富,给图书馆的工作带来了新的机遇和挑战,也给图书馆员带来了新的工作内涵,它使我们不断地补充新知识、接受新生事物,采用新的编目工具组织新的信息。在对网络信息资源进行组织整理方面,图书馆应是大有可为的,图书馆有知识、经验都很丰富的编目人员,有一套切实可行的工作方法。目前,对网络信息编目,图书馆界正在进行如火如荼的研究,相信无论是用maRC或是DC,是用XmL或是HtmL,图书馆这在方面的工作将会做得越来越完善、越来越科学。

【参考文献】

1、卢共平.图书馆与网络信息资源的组织管理.http:///magzine/00-06

2、郭瑞华.对网络信息资源著录项目和著录格式的研究.图书馆建设,2002(1),55-57页

3、吴万晔.oCLC的CoRC系统对我国虚拟图书馆发展的启示.情报杂志,2002(8),86-89页

4、王绍平.合作编目—网络资源书目控制的必由之路.http:///chinese/teaching&research

5、方小容.网络信息资源编目与CoRC系统.现代图书情报技术,2002(2)65-68页

6、吴开华等.数字图书馆元数据研究.图书馆学、信息科学、资料工作,2002(8),27-30

地理信息数字化描述方法篇4

关键词:内容分析;多媒体教学信息;检索;mpeG-7

abstract:multi-mediateachinginformation,insomerespects,withindescribablecharacteristicsandunstructuredsearch,andcontent-basedanalysisofthesearchtechnologytosolvethemulti-mediateachinganddescriptionofthecontentsoftheinformationretrievalproblems.inthispaper,basedontheanalysisofthecontentsofmultimediainformationretrievalteachingofthemainworkflow,aswellasmpeG-7intheteachingofnetworkapplications.

Keywords:contentanalysis;multi-mediateachinginformation;retrieval;mpeG-7

1.概述

随着计算机网络技术、多媒体技术以及通讯技术飞速发展,以视频、音频、图形与图象为主体的多媒体教学信息成为开展现代远程教学的主要内容。对多媒体教学信息中的文本数据内容分析与检索技术比较成熟。目前在互联网上搜索引擎均是采用了基于关键词的检索方式,像百度、Google,北大天网、YaHoo等著名的搜索引擎均是采用这种方式,由于数据内容是具有结构化特征,它是可以用一定关系模型来描述。而视频、音频等多媒体信息内容具有非结构化的特性,不容易用关系模型来描述。加上视频、音频是与时间有关系的连续媒体信息,网络中它们是以视频、音频流媒体形式存在,这种流媒体形式的管理与检索比较困难。

2.基于内容分析方法的提出

我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。在多媒体教学过程中,使用这种方法不仅会出现迷航现象,而且会降低学习效率。由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。

如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。如:颜色、纹理、形状、场景、镜头、帧等特征信息。目前该技术已经发展到实用阶段,其中多媒体内容描述接口mpeG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。

mpeG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有mpeG-i、mpeG-ii、mpeG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中mpeG-4采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。而mpeG-7是在mpeG-4基础上发展起来,mpeG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。

3.多媒体教学信息检索工作流程

多媒体教学信息检索主要工作流程分为三个阶段:内容获取、内容描述、内容操作。即先对原始媒体进行处理,提取内容,然后用标准形式对它们进行描述,来支持用户对内容的操作。

内容获取通过各种内容分析和处理,而获得媒体内容的过程,它包括信息分割、特征提取两个部分。信息分割分成图像分割与视频分割。内容获取核心是特征提取。特征提取就是提取内容显著的特征和人的视觉、听觉方面的感知特征来表示媒体和媒体对象的性质,特征提取有自动特征提取和人工交互或提取两种方式。内容描述就是描述在以上过程中获取的内容,内容描述是mpeG-7标准中的内容,它可以用来描述越来越多的不可预知的信息,mpeG-7是用来对多媒体信息进行不同程序描述的方法和工具。mpeG-7国际专家组制定的多媒体内容描述主要是采用了描述符和描述方案来分别描述媒体的特征及其关系。描述符就是对实体特征描述表示方法,描述方案是说明描述符的结构和相互关系。描述定义语言DDL是规定了描述方案的语言,它允许对现有的描述方案进行修改和扩展。mpeG-7描述符只与多媒体内容相关,并不依赖于多媒体内容的编码或存储方式,所以它可以独立于各个厂商的平台,它方便了多媒体内容分布处理与内容的交换调用。

内容操作是对内容用户操作和应用,因为用户对内容有着不同的需求。查询多用于数据库操作,检索只是在索引支持下快速获取信息的方式,搜索是用户通过搜索引擎在internet中搜寻自己所需的信息,浏览是用户通过浏览操作,线性或非线性地存取结构化与非结构化(超媒体)内容。

4.“元数据”技术与mpeG-7格式的定义

为了解决对多媒体中视音频数据内容描述提出了“元数据”的概念,所谓“元数据”就是用来描述数据特性的数据。多媒体数据特性的描述不是对图像和声音波形进行简单的采样,而是获取它们的物理特征和时间信息,这些数据就是元数据。例如:视频可用幕、场景、镜头、帧等特征信息来描述。元数据技术的出现使得对多媒体内容及特征的管理与检索成为可能,mpeG-7就是采用了元数据技术的多媒体内容描述结构标准,通过mpeG-7格式定义的多媒体教学信息让学生可以高效率地搜索、过滤、定义自己所需要的视音频资料。目前国际mpeG组织在mpeG-7标准中定义五种内容信息。1.创建和生产:视音频制作的基本信息如:电视片头、导演、曲作者等;2.媒体:定义资料存储的方法,如视频音频是否经过压缩、编码方式、储存媒介等;3.使用:定义资料使用的方式,例如电视教学片版权单位,播放时间;4.结构方面:对电视片中出现的某种物品、颜色或者是音乐中某一片段旋律的描述;5.概念方面:定义了资料中各种控制的链接或交互。

通过以上五种内容定义可以看出mpeG-7只是定义了对多媒体信息不同程度描述的方法,并没有规定怎样利用内容描述进行搜索的具体程序和工具,mpeG-7对多媒体内容描述的特征可以夹带在mpeG-i、mpeG-ii、mpeG-4等格式视音频资料中使用,也可以独立使用。mpeG-7本身虽然没有直接对文本信息进行描述,但它考虑到现有文本信息描述方法,支持它们之间即描述视音频信息和描述文本信息之间的接口。

5.mpeG-7在多媒体教学中的应用

在当前多媒体教学过程中,多媒体教学信息快速获取教学过程重要的环节。在实际中使用视音频资料时往往可能采用其中某一个片段或某部乐曲中的一段旋律。如果利用了mpeG-7标准以后,教师只要输入几个简单的音符就可以找到某段乐曲,只要画简单的线条和简单的图案就可以在庞大的多媒体信息库中找到所需视频、音频资料的某个片段,这极大提高了课堂教学效率。在网络教学中学生可以轻松在数字图书馆中找到自己所需的教学信息,不必采用导航图标一级级搜寻。对网络多媒体教学信息组织管理可以通过多媒体内容分析技术提取多媒体内容元数据,保证了媒体内容元数据库及其元数据格式的遵循mpeG-7标准,为网络教学资源共享和交流创造了良好的基础。目前mpeG-7应用较为广泛,不仅在教育领域,而且在广播电视媒体、多媒体编辑制作、导游、娱乐、新闻、地理信息、建筑等领域有着广泛应用潜力。

6.结束语:

总之多媒体信息检索技术是一门综合了数字视频/图像处理、语音识别/语言处理、多媒体数据库、模式识别、人工智能等学科计算机应用技术,随着这些学科发展,多媒体信息检索技术会不断成熟完善,对社会信息化产生巨大推动作用。参考文献:

地理信息数字化描述方法篇5

【摘要题】信息服务

[分类号]G255.54

数字化信息环境下的数字化参考咨询服务,不仅可以体现文献信息服务的专业化,自动化、智能化和知识化程度,同时能够更有效地帮助用户充分、高效地利用文献信息资源与服务。

随着数字化参考咨询服务和协作咨询服务网络的发展,需要研究和制订咨询系统和参考服务管理标准,以保证服务质量和系统的互操作。目前国内外很多网上参考咨询服务系统日益重视咨询服务及其管理的标准化问题,正在研究和制订一系列相关标准规范。

1 数字参考咨询标准研究概况

目前国内外数字参考咨询系统及其服务标准研究及其规范工作,主要集中在三个方面:

(1)专家或成员信息描述标准。用于识别咨询(学科)专家(馆员)或协作成员。

(2)知识库标准。主要用于收集、描述、加工、存储和共享问题和答案的知识库建设。

(3)问题传输协议。主要解决参考咨询服务机构之间的信息交换。

目前通常采用web表单或者电子信箱等工具来处理这个问题。这意味着大量的数据的流动,包括从数据库或电子信箱中导出或导入。创建一种信息交互的无缝方式能够使信息共享更加容易,更加经济。

2 参考咨询标准内容研究

2.1 咨询数据库格式与标准

知识库的数据格式提供了广泛的问答知识的组织框架,以获取咨询业务中的知识层面的信息,定义参考咨询业务流程、管理和问答知识组织、描述、存取数据。知识库格式把参考咨询交互转换经过编目,并且能够妥善保存、便于编辑修改的可靠、严格的知识数据。制定知识库格式的基本原则是:必须能处理咨询业务中浓缩的信息比特内容;在形成对信息来源的选择和评价过程中,必须能将图书馆员的知识具体化。

目前,知识库标准主要包括知识内容、数据元素/元数据、过程维护和功能报告。内容包括一个问/答过程完成后的问题、答案、匹配和指示/链接。数据和元数据元素包括信息描述、问答记录、个人信息、权力管理、费用信息和回答者及资源的确认/证明。过程维护包括记录的更新、增加、删除和记录之间的相互参见。功能报告包括知识库记录的趋势、统计和分析。知识库标准可以与资源描述、质量、权限管理、隐私、版权、统计、鉴定和存档等方面的标准进行整合和协调。此外,需进一步研究与语言和文化、隐私、版权、行政权限以及文化、法律和政治敏感性等相关的标准。

专家与成员馆描述标准须考虑提问者的描述元素和答者的描述元素,以及二者的有机结合。可参考的模型有CpeX(Customerprofileexchange)和CDRS.CpeX中划分类别包括/参与者/执行者(如统一标识符,国籍、角色)、联系方式、参与人数统计、交易对象参考、管理、交互历史、优先信息/约束以及司法和隐私限定。

交换协议包括描述过程模型,消息和功能,内容描述包。目前有许多现存的标准或推荐标准可以参考借鉴,或者可以与之整合、协调。如iLL、Soap、QuiF、iSo2146、n-Cip、Z39.50等。需要研究和试验的内容包括:问/答交换模式的应用、元素和元数据交换性测试、参考咨询软件包之间的测试。协议标准的发展过程中对一些涉及国际性的问题比较敏感,如语言、时区和司法问题。

知识库格式与标准需要进一步解决的主要问题包括:版权、问题和答案的所有者、语言、文化、主题分类法的选择、采用受控词表还是自然语言等,知识库中提问信息之间的平衡、数据元素、权重、值是否正确及其表单设计等。另外,作为协作式参考咨询,需要解决合作型知识库系统、问题交换标准、资源共享、标准化的度量和计费系统。

数字参考咨询标准研究主要针对数字参考咨询过程中获取的数据进行描述、共享和存储说明。目前,美国aBC公司(answerBaseCorporation)和oCLC分别联合研究型图书馆和数字图书馆联盟(DigitalLibraryFederation)研究提出了2个标准:KnowBit(KBit)和Quip。

(1)KBit数据库格式

KnowBit是一种管理咨询信息交互的标准数据格式。该格式为集成、可升级、链接和可扩展的数据标准,能够将各种信息成分组合到一个简单的格式中。它既包括对叙词表或分类词表的选择,还包括与maRC及其它标准有关字段的连接。KnowBit格式区分了问题的类型:原始问题,咨询过程问题和正式问题,并通过提问目的和所问问题类型来识别问题。描述字段可以对问题的地理范围,语种,版权状态和可获得状态进行识别。除此以外,采用主题分类,关键词术语,数据条目,著者和来源评价、数据频率等途径可以进行分类、评价和统计分析,为获取、识别、分类问题答案库中的信息提出了有效手段。KBit数据格式具有多种特点。

(2)Quip数据标准

Quip是针对基于网络的数字化参考咨询服务的问题和答案内容描述的一个交换协议。以分布式协作型为基础,为internet不同域的用户设计。Quip是一种基于元数据的线程化的数据格式,能以统一的格式维护、跟踪、存储咨询服务的问题和答案。其核心是一个问答流。数字咨询交换是多个问题/答案的交互。这种交换可能是多个交互,包括问题主题和咨询人员或用户的变化或变更。Quip是面向过程的。Quip支持基于多个服务器的问题和答案序列的知识共享的发展,辅助平衡服务器之间的问题负载。Quip有三个主要概念:元数据模式,语法绑定,协议集。Quip可分为两个部分:

①元数据。确定数据存储、交换的结构和格式。

②协议。协议能够实现计算机到计算机的事务处理(如处理问题)和其它服务(如提问状态)。

3 问答知识元数据研究

3.1 数据元素特征

知识库格式和标准建有数据元素、字段或者数据词典,力图使问答过程的描述和数据库的存储格式化、标准化。

咨询问答过程(交互)中通常有若干个属性。每个属性可能会有子元素,或子属性。

以Quip数据标准为例,可以得出知识库数据元素一般具备以下特征:

(1)数据元素是可强制、有条件或可选择的。

(2)数据元素可重复或不可重复。

(3)可预定元素值。

(4)元素和属性可扩展。

(5)建立一些控制元素。

(6)建立唯一识别符,一般分为“注册识别符”和“本地识别符”两种。

(7)建立注册信息元素。

3.2 数据元素设置

知识库格式一般由数据字段(即元素属性)和数据元素(即属性子元素)组成。根据目前已有的几个数字参考咨询数据库格式内容,通常数据字段分四个部分:问题字段、答案字段、成员描述字段和描述字段。

问题字段和答案字段十分相似,都有提问/回答跟踪、成员馆、控制、内容等几个部分。提问/回答跟踪字段有提问/回答代码、时间和日期标识等元素。成员馆字段主要有代码、电子信箱、网址,馆藏实力、馆员实力、回答范围、回答数量、份额、技术环境等元素。控制字段包括对问题难度、教育层次、提问/拒绝原因、词表、分类表,已查资源、时间限制的说明性元素。内容字段则包括具体问题/答案的内容、提问关键词、答案引文等元素。另外,问题字段还包括一个最终用户手段,对个体用户的说明。咨询服务(方)描述字段主要有名称、地址、电子信箱、网址、实力等元素。

目前oCLC提出的Qp(Questionpoint)元素和虚拟咨询台(VRD)研究的Quip数据元素如下:

(1)Qp数据元素设置

oCLC的Qp(Questionpoint)数据库格式以及数据元素主要包括五个部分:

①用户、users/agents;

②成员档案数据库memberprofiledatabase;

③提问管理器requestmanager;

④知识库knowledgebase;

⑤服务水平协议servicelevelagreement.其成员馆描述分为几个层次:没有或最少信息型、基本信息型、指导支持型、研究型、全面型。

Qp也设置了问题字段和答案字段,分别对问题和答案的具体描述。问题字段包括问题内容、机构、提问文件、提问来源、教育水平、关键词、提问日期、主题、地理代号、机构代号、代号、提问原因、提问语言、已查资源等元素(或子元素)。答案字段包括答案内容、机构名称、答案状态、关键词、机构代号、回答日期、格式、答案语言、当前问答状态等元素(或子元素)。

(2)Quip数据元素设置

虚拟咨询台(VRD)使用的Quip数据元素按其间关系可以形成一个等级树状表。Quip线程位于最上层,包括QUiD标识号和问答交互(interchange)。QUiD又分为注册号和本地号,交互流则包括次序、发起者、日期、状态,交互控制,主题、内容等几个部分。其中,发起者是对提问/回答的组织或个人情况的描述,有名称、地址、电子信箱、电话号码以及在问答过程中的角色(回答者的资格或资历、专业水平)等几方面。内容是对问答具体内容的描述,包括格式、语种、描述、信息正文四个方面。

2002年Quip推出了2.0版的草案,对Quip元素作了较大修改和精简。interchanges用event代替,date用temporalindicator代替,text用body代替。调整后的元素等级表更为简明清晰,主要由两个一类对象profile和event组成,把问答发起者、的描述和问答流的描述区分开来,这与CDRS的元素结构更接近了。profile包括代码(piD)和描述内容(p_Content)两部分;event包括状态(State)、次序(Sequence)、内容(Content)、主题(Subject)、发起者(actor)、时间标识(temporalindicator)、控制(Restriction)等几个部分。其中,内容依旧由格式、语种、正文几方面组成。

3.3 数据元素与DC元数据的映射关系

DC(DublinCore)正在成为元数据的通用语言,因此在问答知识库元素与DC元数据间实现映射有一定的意义。VRD在制定知识库标准时就注意其Quip元素与DC元数据的对应和映射。DC是对文件对象进行最基本的描述,而知识库是将一次问答交互等同于一个文件,对问答数据交互进行描述,所以二者之间不能进行简单的映射。另外,问答交互文件是动态的,在用户和服务器,服务器和服务器之间进行数据交换时,是不断变化的。DC元数据的特征之一就是可以根据特定的团体和应用需求进行扩展。因此,知识库的许多元素可以从DC中扩展而来,当然也有DC中不存在的元素。

3.4 问答数据的XmL描述

问答数据可以用多种方式进行描述,并能基于不同协议进行传输。例如,具有自己的DtD文件,能与XmL语言进行绑定。以Quip为例:

Quip的DtD片断:

<!——therootofaQuipthreadedinterchange.——>

<!eLementQuipthread(QUip,interchange+)>

<!——auniqueidentifierofthread.——>

<!eLementQUip(QUip_Registry_iD.Local_iD)>

<!——Basicrepeatingelementofathread.——>

<!eLementinterchange

(Sequence,instigator,Dates+,State?,Restriction*,Subject,Content+>

<!eLementQuip_Registry_iD(#pCData)>

<!eLementLocaliD(#pCData)>

4 分布式参考咨询服务标准研究与设计

“分布式参考咨询服务系统”是中国科学数字图书馆研究项目。在考察了国内外分布式数字参考咨询系统的基础之上,针对我院文献情报系统网络文献信息服务的需要与发展,研究和设计了一个基于网络环境下的“分布式参考咨询服务系统。

系统建于通用性网络平台之上,整个参考咨询系统采用“咨询控制中心+成员馆”的模式。主要包括单馆式和实时参考咨询。系统集成二种参考咨询方式:脱机模式(offlineinteraction),实时联机(Realtimeinteraction)。系统由读者服务系统和管理系统组成,读者服务系统能够提供:读者注册、我的问题、表单咨询、e-mail咨询、实时咨询、网站内容、咨询专家推介、问题征解,最新问题/答案列表、Q/a检索、FaQ、服务声明、系统帮助等功能。管理系统功能主要包括系统的服务与管理以及11个子系统的运行管理。

4.1 数据模型研究与设计

根据分布式数字参考咨询服务实际环境设计和建立系统数据标准。以元数据设计为基础,通过对分布式数字参考咨询过程、管理对象、对象与过程间关系、管理过程以及知识组织与利用进行分析和分解,建立了系统服务标准设计逻辑功能,并在此基础上构建了分布式数字参考咨询服务系统标准数据模型,基于这个数据模型,设计并建立了分布式数字参考咨询服务的整个业务流程管理、咨询专家(成员馆管理)调用、咨询质量控制与评价和知识信息组织与利用描述元数据标准与规范。分布式数字参考咨询服务及系统数据模型如图1:

附图

图1

4.2 数据库格式与标准研究与设计

为了保存和共享丰富、有价值的信息和学科专业知识以及专家资源,提高系统的自动化和智能化管理程度,提供更多、更便捷的信息和专业知识导航,系统按照上述数据模型,分析提出了实现业务流程、专家管理、质量控制、问答知识组织与利用等各个环节、过程的数据元素,形成了系统的数据文件模型,并在此基础上提出并建立了系统数据库格式与标准。

分布式参考咨询系统数据库格式和数据标准是基于元数据设计制定的数据格式与标准。数据标准结构主要包括答案表、问题分配表、分类表、专家表、问题征询表、成员馆表、读者表、问题请求表、主题词表等9个数据表。

(1)答案表的元素设计主要有:回答、请求、次序、专家、成员、回答类型、答案内容、语言、格式、版权、时间、参考资源、质量评价等。

(2)问题分配表数据员主要有:问题分配、请求、专家、分配时间、响应时间、完成时间、答复结果。

(3)分类表的数据元素主要包括:分类号,类别名称、类别等级等。

(4)专家表数据元素有:专家识别号、专家注册、密码、角色、专家姓名、成员、教育程度等。

(5)问题征询表元素主要包括:请求识别号、次序、出处,发起者、主题、全文等。

(6)成员馆表的数据元素有:成员馆识别号、成员馆名称、成员馆服务时间、成员馆数字参考URL、成员馆地址、电话等。

(7)读者表数据元素主要包括:读者识别号e-mail、密码、姓名、国别、地址、邮编、电话等。

(8)问题请求表数据元素有:请求识别号、读者识别号,成员识别号、分类号、问题主题、词汇、问题深度、问题难度,响应时间、处理状态、发表确认、问题ip地址等。

(9)主题词表数据元素主要包括:词表识别号、分类号、主题词。

在设计分布式参考咨询服务与管理数据标准时充分注意采用元数据标准和开放描述语言(例如DC元数据、XmL、DtD)并保持与之直接对应关系,以增进系统数据标准的开放性和规范性。

4.3 咨询服务与管理数据元素著录规范

咨询服务与管理标准化工作将提高系统的流程管理与信息管理效率,增加网络参考咨询务工作中各个不同成员之间、不同平台与环境之间信息的互操作能力,提高参考咨询服务质量,保证问答知识库的数据质量,提高知识库的利用率和准确率,分布式参考咨询服务系统准备进一步研究和制定有关数据著录规范。

(1)知识库数据著录规范

问答知识库是由若干组经过核实、标引、编辑的问答记录所组成的可供检索的数据库。知识库可为读者和咨询专家提供答案检索服务,根据知识库的数据格式与标准要求,知识库的数据收入范围规定设计为:

①凡有保留价值的问题/答案须编辑处理、标引加工,存入知识库;

②凡属常见、常识性问题/答案应编辑处理、标引加工,存入知识库;

③凡属一般性科技知识类问题/答案应编辑处理、标引加工,存入知识库;

④凡属事实性(数据、名词解释)问题/答案应编辑处理、标引加工,存入知识库。

⑤凡有具体出处(网址除外)等文献信息指南性答案应编辑处理、标引加工,存入知识库;

⑥凡有明确的信息检索查询指导步骤的答案应编辑处理、标引加工,存入知识库。知识库的数据著录规定设计为:

⑦对问题/答案中的个人信息:姓名、e-mail地址、机构名称、密码、国别、地址、邮编、电话等信息经删除后编辑加工入数据库;

⑧答案中引用的文献信息书目须采用《国家文献著录标准—检索期刊条目著录规则》(GB3793-92)格式进行规范处理;

⑨对问题/答案进行学科分类审核和维护;

⑩用系统知识库分类主题词汇,对问题/答案进行主题词或关键词标引。

(2)系统数据元素著录规则

根据分布式参考咨询服务系统数据库建设,设计和制定了9个数据元素著录规则:

①答案数据著录规则

②问题分配数据著录规则

③分类数据著录规则

④专家数据著录规则

⑤问题征询数据著录规则

⑥成员馆数据著录规则

⑦读者数据著录规则

⑧问题请求数据著录规则

⑨主题词数据著录规则

国家科学数字图书馆分布式参考咨询服务系统是基于开放体系结构的数字化网上咨询服务系统,通过开放建设和集成各种分布、

异构服务和多样化数字信息资源,形成个性化的虚拟参考咨询服务和完善的服务机制。为了保证数字参考咨询服务顺利开展,并高效、可持续进展,分布式参考咨询服务系统将不断按照国际化、开放性、技术成熟性等原则,明确确定本系统的各项服务与管理标准,以提供准确、方便的网络数字参考咨询服务。

【参考文献】

[1]R.DavidLankes.thevirtualreferencedesk:questioninterchangeprofilehttp://

[2]Blithe allisonBennett.Virtualreferencedeskincubator:aDemo.http://

[3]张奇.虚拟参考服务的成功范例——CDRS.战略思考——图书馆发展十大热门话题.上海科学技术文献出版社,2001

[4]莫少强等.数字图书馆参考咨询服务的实践与研究.知识导航与图书馆服务(第一界国际图书馆论坛论文集),上海科学技术文献出版社,2002

[5]吴建中,DC元数据,上海科学技术文献出版社,2000

[6]abbyS.Kasowitz.trendsandissuesindigitalreferenceservices.http://www.ericit.org

[7]ButlerBrett.KnowledgeBit:adatabaseformatforreferenceversion2.0.http://www.vrd.org

地理信息数字化描述方法篇6

关键词:GiS;空间数据库引擎;精细油藏描述;信息查询;空间分析;数字油田

中图分类号:p208

文献标志码:B

文章编号:1006-8228(2011)08-10-03

引言

“数字油田”是伴随数字地球及数字城市的概念而产生的,它主要是基于地理信息系统,对油田实际生产工作中产生的各种数据使用计算机进行统一管理,以方便资源的有效存储、查询与使用,提高油田的生产效率。数字油田应用系统汇集了油田的有关数据、信息、软件和知识,是空间性、数字性和集成性三者的融合统一。数字油田的建设对提高勘探开发研究能力和管理决策水平、降低开发风险具有重大意义。

一些国际石油公司,早在20世纪60年代就已开始了大规模的信息化投入,有的公司在60年代中期对信息化的投入就已达总资产的5%,而80年代之后,投入比例更趋上升态势。国内各油田都对数字油田建设也进行了较大规模的投入:中石油在2000年制订了it发展战略规划,规划了数字油田建设项目;大庆油田有限责任公司于2003年制订了信息化建设总体规划,明确提出了数字油田的建设目标;胜利油田于2003年制订了数字油田建设规划;塔里木油田被列为国家数字油田建设的示范单位和国家“十五”科技攻关重点项目。在数字油田建设过程中,由于数据标准的缺位等导致了一座座信息孤岛的形成,因此,数据建设又成为了近期油田信息化建设的核心任务,解决数据共享问题、搭建统一的应用平台成为“数字抽出”的当务之急。

精细油藏描述信息化系统(下面简称系统)是数字油田的数字地下应用中的一个子项,它基于GiS技术,将油田勘探开发阶段的各类动静态信息资料和精细油藏描述的研究成果,尤其是经过三维地质建模后的信息数据体,以空间关联的方式进行提供。系统能导入各种格式类型的数据和图件,并能快速地进行关联查询,便于工作者进行纵横向上的对比,减少因信息资源管理混乱、图件数据毁坏等等所带来的不便。基于GiS的空间分析能力,系统还具备一定的分析预测功能,为油田的生产决策提供了技术平台。

1、精细油藏描述成果的认识

精细油藏描述最早在1968年由mcKinley:提出。现代精细油藏描述的主要内容为:储层微构造和沉积微相研究;流动单元划分与对比;隔层和夹层预测;注水开发过程中储层物性和油气水动态变化规律研究;建立储层预测模型;剩余油分布特征及规律。

在对研究区块进行精细油藏描述的过程中,需要大量的区块内的资料。主要包括:

(1)单井资料。分层、井位井斜、测井解释、生产数据。一般来说,可以用单井柱状图(见图1)来承载以上信息。

(2)平面图。构造平面图、沉积平面图、储层平面图。

(3)剖面图。构造剖面图、沉积图(见图2)、储层剖面图。

(4)储层知识库。分析化验资料。

通过对研究区块的以上资料内容的分析,可以看出,这些信息基本上都可以运用地理信息系统进行处理。

2、系统设计

2.1 系统框架设计

系统核心类交互关系采用的是三层式C/S结构模型:数据层(数据访问处理逻辑部)、逻辑层(业务处理逻辑部分)、应用层(用户交互界面、显示部分),避免了传统的B/S模式在编辑功能以及网络负载上的局限和瓶颈,(系统总体框架如图3所示)。

2.2 系统数据库设计

系统基于SupermapSDX+空间数据库引擎建立空间数据库。由于系统处理的数据都以空间信息来组织,它可针对具体的数据格式编写数据接口,在空间数据库引擎下实现空间信息统一管理。系统还采用Supermap公司提供的二次开发组件Supermapobjects,主要采取扩展结构模型和统一数据模型相结合的方式来对精细油藏描述中的空间数据和属性数据进行管理。系统的空间数据库采用了目前主流的扩展模式,从逻辑上可进一步划分为三个部分:基础地质图形库(存储与勘探开发相关的地质图件)、基础地质信息库(存储勘探开发涉及的地质基础数据)、三维模型分析库(基于Dem技术建立的地质体三维模型,用于分析预测功能的实现)。

2.3 系统功能设计

鉴于GiS具备强大的空间数据存储、处理和分析能力,在系统的开发中,我们查阅了大量的关于数字油田建设和GiS在数字油田的应用等方面的文献,利用GiS实现了信息管理、查询、分析的功能(如图4)。GiS为油田的生产决策提供了高效的应用平台。

2.4 系统界面设计

系统的界面中采用传统的windows多文档窗体结构样式,设置有菜单、工具栏、状态栏、进程条、操作控制等模块。界面简洁清晰,各功能模块分类明确,并且有多线程、进程的适当处理以及进程信息的提示,提高了用户界面的友好性(如图5)。

3、功能的实现

在系统核心功能的设计开发中,我们参考了GiS在油田其他方面成功应用的案例和国外油田GiS应用状况,充分利用GiS平台Supermapobjects的灵活的空间分析和二次开发功能,以雷家老区精细油藏描述为案例,进行了详细的用户调查和需求分析,设计并实现了此系统。该系统有以下一些核心功能:①借助空间数据库技术,实现了属性数据与图件的集成化管理;②灵活的空间查询模式;③高效的专题图件编辑功能;④快速自动化成图;⑤分析预测功能等。

现就其某一核心功能的实现进行介绍。

4、虚拟井属性信息的获取

在一定的距离范围内,地层的岩性信息具有一定的相似性,其相似性随距离的减小而增大。因此。我们可以采用反距离加权(inverseDistancetoapower,简称iDw)空间插值的方法对其进行空间插值处理,在地质体模型精确建立的前提下,就可以获取相对可信的未知点钻遇地层的对应的分层数据。然后我们可以根据一定搜索条件,在研究区块内搜索模拟井的参考并集合。搜索过程中,要考虑到断层和距离的双重影响,尽量搜索同一断块内、距离相对较近的参考井的集合,同时根据研究目的层段沉积环境和参考并搜索情况确定虚拟井的一级置信度。根据参照并集合信息,利用距离反比加权的空间插值方法,基于前面得到的推论,预测出虚拟并属性信息,获取模拟井二级置信度。这样,我们就可以根据已知井的属性信息预测一定范围内的虚拟井的属性信息(见图6)。

虚拟并属性信息获取的具体步骤如下:

(1)获取参照并信息数组。从地质属性库中获取参照并分层数据、岩性数据,根据距离反比加权法获取参照并参照权系数。

(2)分割虚拟并要预测的目的层。对虚拟并每一目的层,根据设定的分辨率(默认分辨率设为0.5米,即是1:500录井柱状图中能识别的最小的岩层厚度),将虚拟并目的层等分。

(3)对虚拟并某目的层的每一等份,根据参照并信息分别预测其岩性,最终获取虚拟并目的层属性信息。

5、系统应用

系统基于GiS实现了属性与图件数据的管理、查询、分析预测的功能,为油田的生产决策提供了高效的技术应用平台。

5.1 信息管理

系统的管理功能主要包括数据录入、数据处理、图件操作和专题图制作。

系统利用SupermapSDX+空间数据库引擎建立空间数据库,对于部分地质图件采用扫描矢量化的方式录入,部分图件采用数据快速生成的方式。在SDX+平台下,系统针对具体的数据格式编写接口,在空间数据库引擎下实现空间信息统一管理。系统能实现多源数据的融合,以及各种格式类型数据的成功转换,这是系统的一个突出功能。

因此,对于日益膨胀的各种动、静态资料,包括录井柱状图图件资料、测井解释资料、研究区井位数据、地震剖面、构造数据、生产动态信息、井斜数据及其他图件数据等等,系统都能有效地进行管理,解决了油田庞大信息的管理难题。

5.2 信息查询

系统具备多元化的信息查询手段,包括图到图、图到属性、属性到图的查询,而且操作简单,各有特色。按照数据的日常使用习惯,可以通过关键字的关联设置,实现数据横向和纵向的关联查询,极大地方便了工作者进行横纵向信息对比。其中:图到属性的查询,是通过地图的点击、双击、右击或键盘功能键完成的操作(见图7);

图到图的查询,是从一个地图信息通过图关联的信息跳转到另外一张图上实现的(见图8);

属性到图的查询,是通过构建一些常用的SQL语句和条件限制,定位到目标图形上实现的。

5.3 分析预测

分析预测功能是系统的高级功能,可用以对生产开发提供参考依据,主要包括模拟井的绘制、任意连井剖面的绘制、生产动态曲线和报表的制作、三维可视化四个方面。现以任意连井剖面的绘制和模拟井的绘制为例加以说明:

过并对比剖面的绘制是精细油藏描述十分核心的内容,因为它直接反映地层的划分。点击单井井位,选择建立剖面所需要的并,调整好并序,即可快速绘制任意过并对比剖面,极大地方便了工作者进行横纵向对比(见图9)。

模拟井的绘制是通过建立的三维地质体模型,预测出研究区块内未知点上的模拟钻井岩性分层数据,既而通过这些数据绘制出模拟钻井录井图,给油田下一步布井生产提供参考依据。模拟井的绘制只需点击菜单[图件管理添加模拟井],按提示信息操作即可(见图10)。

地理信息数字化描述方法篇7

引言

众所周知,通信的双方必须遵守相同的协议,报文才能互相识别。目前,不同行业间的通信协议千差万别。为解决不同通信协议间的计算机系统通信问题,人们普遍采用的措施是一个具体规约对应一段程序。如果出现新规约,只能由通信双方共同配合,由一方按另一方的标准修改或增加通信规约来解决问题。这种解决措施使得通信系统的适应能力不强、可维护性差,难以兼容不同规约的设备。

笔者借鉴操作系统进程控制块pCB的思想,通过对各种通信规约的认真分析研究,提出了自己的通信规约管理平台的核心设计思想——用户填写指定格式的静态规约说明书。规约管理平台根据规约书生成通信规约控制块,由规约控制块统一控制、管理,并适应千差万别规约程序的运行。

该平台的设计使得系统能够适应千差万别的通信规约,不用修改程序就能够保证通信系统在线运行情况下,接入各种新设备,以不变的程序应对万变的规约,维护真正做到傻瓜化、智能化。

1设计通信规约管理平台的可行性

1.1统一的通信模型

任何两台计算机上的两个应用程序通信,都遵从如图1所示的通信模型。数据流动可以用收到发两个动作来描述。把提出数据请求服务的应用程序称为控制方向、即命令的下行;把提供数据服务的应用程序称为监测方向,即数据的上行。这样,一个完整的规约有控制方和监测方两个方面。控制方向下发送命令,并解析监测方发来的应答或主动上报的数据或状态指示报文;监测方解析命令,根据请求命令组织应答报文并上传。

1.2通信规约的共性

任何通信规约都具有如下共同特征;帧结构的相似性、数据对象种类和报文长度的有限性、报文流的粒子性、逻辑过程的有穷性、传送原因的可分类性。

(1)帧结构的相似性

每帧报文都有图2所示的传输控制部分。

传输控制部分的目的之一是保证要传输的数据最终能够正确到达目的地。传输控制部分包括同步字对象、长度对象、传输方向对象、源地址对象、目的地址对象、帧号对象、功能符对象、结束符对象、其它对象及校验码十种对象构成。任何具体的规约都是上述对象的全部或基子集的一个具体排列。

数据部分就是用传输控制元素封装起来的传输数据。

(2)数据对象种类和报文长度的有限性

数据对象是通信规约真正要传输的对象。任何一个具体应用,要传输数据对象的种类是有限的,因而人们能够通过具体的通信规约将其进行描述。通信规允管理平台同样也能被描述出来。

任何规约一帧报文的最大长度都是有限的,这样不但可以遏制通信线路上长期被个别设备独占,也减少了错误传的次数与重传时间。一旦要传输的数据超过规定帧长,要分帧发送,接收方根据帧号来组装源数据。

(3)报文流的粒子性

更重要的是任何报文流的最小单位都是一个二进制位,相应报文的最小定义单元也是一个二进制位,这是所有通信规约的共性,不同的是各位间含义不同。任何规约的不同定义都在报文流有不同的确定位置(对位而言),数据发送是以字节为单位的。所以,引入顺序号的概念来描述并指示定义在不同报文中的起始位置(相对于合法报文的第一个同步字)和位数,顺序号属性就成了所有对象的共同属性。描述如下:

*字节序号——定义在一个以字节为单位,合法帧中数据成员占有的逻辑序号,第一个起始符为逻辑序号0(C、C++下标从0开始),根据在数据流中出现的先后顺序递增;

*字节内的起始位号——字节内的开始位号,取值范围0~7;

*位数——用几位表示。

structCommSerial

{unsignedintSerialByte;

unsignedcharByteStartBit,ByteendBit}my={2,0,8};

字节顺序号为2,字节内起始位号为0,位数为8,说明是帧中的第三个字节。如果规约用已有定义的字节的空位来定义,顺序号可以重复,但位号不能重复,用累加实现。

(4)逻辑规则的有穷性

逻辑规则包含以下四个方面。

①命令应答关系规则:包括通信双方中,控制方发送的命令和监测方的应答数据对应关系,以及监测方的状态指示和控制方的发送命令关系两个方面。这种对应关系是确定的、有限的和可描述的。

②双方数据发送的时间规则:控制方的自动轮询时间规则、监视方主动上报的时间规则及人工随机干预的控制命令,以上都是有限的与确定的。

③优先级规则:控制方同时出现多种要发送的命令,应按优先级规则进行传送。

④在帧结构的各控制元素一级封装下,数据对象本身又进行了二级封装。这种二级封可按一级封装的方式解决。

(5)传送原因的可分类性

控制方的传输原因有自动轮询、人工随机干预、监视方出现需优先处理的状态或指示;监视方向的传输原因有受召唤与主动上报两种。

综上所述,通信规约管理平台的设计是完全可行的。

图2通信报文统一抽象格式

2通信规约管理平台的基本组织方式

管理平台组织方式是将规约按照统一格式分解,以形成规约说明书或规约描述文件,将之放在外存,启动注册命令,管理平台将规约说明书进行系统注册,填入规约注册控制表。运行时,管理平台从规约注意表中提取指定的规约说明书,并找到一个空白规约控制块CpCB,根据规约说明文件填写CpCB,再由CpCB控制管理这个具体规约的运行。空白规约控制块的个数是有限的。一个进程按照CpCB的内容来运行,同时一个进程管理一个硬件通信端口资源,即通信端口的数量决定通信进程的数量。平台可根据运行各规约的实现性要求,来安排一个进程运行CpCB的数量。当然,一个进程依照一个CpCB运行是容易实现的。

2.1规约说明书

规约说明书由基本情况表、静态描述表、动态描述表、逻辑规则表构成。静态描述表由控制元素对象中不随时间变化而变化的属性信息及其它信息组成;动态描述表用于描述随时间不断变化的控制元素和数据元素信息及其它信息;逻辑描述表由命令应答关系表、应答命令表、时间规则表、优先级规则表、筛选规则表和二级封装规则表组成。

(1)基本情况表

包括规约名称、最大帧长、数据对象个数、命令对象个数和状态指示对象个数,如图3(a)所示。

(2)静态描述

由同步字、传输方向、源地址、结束符及其它6种数据对象构成,如图3(b)所示。同步字标志一帧数据的开始;传输方向说明当前是工作在控制方向还是标志测方向;源地址说明报文的发送设备地址;结束符标志一帧报文的尾;其它对象指向所有不在上述静态描述之中的控制元素对象链的队首。静态描述中的每个控制元素对象都有本规约内全局统一的标识号(iD)。

(3)动态描述

用于描述随时间具体因素控制而不断变化的信息,它包括帧号对象、校验码对象、报文长度对象、数据对象、请求命令对象、应答命令对象、目的地址对象及其它对象,如图3(c)所示。帧号是完整报文的分帧传送,规约规定的报文帧的帧长是有限的;超限时分帧传送,发送方指明帧号,接受方按帧号重新组装。校验码对象用于传输差错控制,检验一帧报文的合法性。报文长度对象管理并指明有效数据的长度。数据对象按应答命令对象指明的类型组织该类数据。目的地址对于控制方向,指明服务的设备地址,它可能向多个设备轮流请求;对于监测方向,指明请求服务的设备地址。数据对象取决于具体规约的定义。应答命令对换快捷指明应答数据对象的类型。请求命令对象指明控制方向,向目的设备下发请求数据状态对象命令,并组织报文帧。应答命令对象和请求命令对象管理的措施与数据状态对象相同。当然,应答数据状态表和请求命令表是静态的,在此便于说明;而数据状态对象表是动态的。

动态描述中的控制元素对象和数据元素对象也都由本规约内全局统一的iD号来识别;iD号由iD注册管理程序生成,填写规约自己所赂的iD注册表。

(4)静态对象和动态对象公有的属性

①顺序号对象:如前所述,它指明某一元素对象在报文流中的起始位置和所占的连续二进制位数。

②iD号对象是全局统一的,它由六段依次连接而成,即一段、二段、三段、四段、五段、六段。根据iD可以识别提取不同的元素对象,它是各控制元素和数据元素的唯一标识。

一段是注册后的规约iD号,高段的位数由规约iD号位数决定。二段是区分上行与下行,用一位二进制位就可区分。三段用于说明具体的规约是否含有对应的元素对象,它说明的是有与无。四段用于区分源地址、目的地址、传输方向、同步字、其它静态对象、帧号、校验码、报文长度、请求命令符、应答命令符、其它动态对象和数据对象,共12种,用4位二进制位就可区分。五段用于说明四段之中的每一种是否具有原子性,比如同步字就具有原子性。当子种类多于一个同步字时,也相当于一个,要发就全发,不可分割;而请求命令符就不具有原子性,只能发出其子种类之中的一种。原子性是个布尔量,一位二进制就可描述。六段用于说明当上述12种之中任一种超过一个时,就可用第5段描述,比如同步字6个,就得用三位,选取上述12种之中子种类最多的一个和为第五段的位数。

③拷贝、赋值、被拷贝:在报文流中的其它类元素对象中,当出现与已有定义的控制元素对象表示值重复时,引进对象的拷贝与被拷贝属性。赋值属性说明该元素指的是已独立的定义值。相应的,引入拷贝与赋值操作。

   (5)逻辑描述信息

逻辑描述信息由下列表构成:

①控制方发送的命令被监测方收到后,监测方予以应答的数据对象iD对应关系表;

②控制方收到监测方的状态指示后,控制方应响应的发送命令iD对应关系表;

③控制方发送轮询命令iD时间间隔表;

④控制方的人工干预控制命令iD表;

⑤监测方的主动上报数据表、状态iD表;

⑥控制方发送命令iD优先级的规则表;

⑦监测方应答数据与主动上报的iD优先级规则表;

⑧二级封装规则表。

地理信息数字化描述方法篇8

abstract:withthegrowingelectronicdocumentstoday,metadataconcepthasbeenwidelyused,andthenintheend,whatisthemeaningofmetadata?thispaperdescribesthebackgroundandthedevelopmentapplicationprocessofmetadatainhopetohaveadeeperunderstandingofelectronicdocumentsforarchivesstaffs.

关键词:元数据;电子文件;概念

Keywords:metadata;electronicdocuments;concept

中图分类号:tp39文献标识码:a文章编号:1006-4311(2010)33-0166-01

1计算机元数据

元数据最早由美国电子文件专家戴维・比尔曼引进电子文件研究领域的,他指出:“在电子环境中,著录可以理解为广泛的‘记录’……电子文件著录中所运用的主要技术就是元数据技术。”而对元数据最初的定义则是:元数据是关于数据的数据,或是元数据是描述数据的数据。在这一层面上,元数据的含义和信息技术领域的元数据含义是一致的。

2著录元数据

①实现方式。传统的档案著录信息的实现方式是“后端控制”,也就是文件归档以后才由档案部门的工作人员来进行著录。而档案元数据其实现的方式是“前端控制”,即在文件创建时,就同时对数字信息的有关信息进行获取,并随着人们对信息对象的不断操作,而不断增加新的内容,并且它一直伴随于数字信息整个生命周期的各个阶段,进行的是全过程控制,直到信息对象被销毁。②实现环境和手段。传统著录信息主要实现环境是手工管理环境,即在此环境下对文件进行著录。其实现手段主要是采用手工著录。而元数据实现的环境主要是数字化的系统环境,即在数字化环境下应用信息技术对文件进行控制。它的获取是将元数据系统预设于计算机系统之中,从而使大部分元数据可以由计算机自动生成。③实现目的。传统的档案著录信息主要是用于描述档案信息资源、实现搜寻和定位功能,起到档案信息检索的作用。而元数据不仅拥有传统档案著录的功能,还记录了与档案信息对象相关的背景信息、技术状况等多方面的信息,不仅可以用于检索,还可以用于保障文件的完整与真实,以及信息可读性等多个方面,从而做到有效地保证数字信息的法律效力。

3电子文件管理元数据

文件由内容、结构和背景三部分组成,结构反映了各部分内容的组织情况,背景则反应后了文件形成过程,为管理这些文件内容而产生的信息就是元数据。电子文件出现后,技术环境的变迁,导致了元数据的复杂化。电子文件的结构包括逻辑结构和物理结构,背景除了行政背景,还包括技术背景,如文件产生的软硬件平台。文件产生的软硬件平台等技术信息是在纸质环境中不曾出现过的,却是管理电子文件的重要信息,元数据这一概念正好能够概括这些信息。对于一份电子文件而言,那些为了有效管理文件内容而形成的信息可能与文件内容分散存储、管理,这就增加了保存、管理元数据的灵活性。同时,由于计算机软硬件平台的不断升级、变换,电子文件在形成以后,不可能一成不变,必然要随着系统环境的变化而变化,需要持续地施以迁移、转换载体、转存数据库等管理行为。在电子文件管理过程中,元数据所起的作用和目的性不同于其他用途的元数据,这样,也就把电子文件管理元数据与其它更为泛指的元数据区别开了。

电子文件元数据是描述电子文件背景、内容、结构及其整个管理过程并可为计算机及其网络系统自动辨析、分解、提取和分析归纳的数据。它既可用于保障相关电子文件的真实性、完整性、一致性、关联性和长期有效性;又可帮助对分布式网络环境下的电子文件进行有效的集成管理和协助提供集成服务,更是构建数字档案馆信息组织体系必不可少的工具。电子文件管理元数据真正的含义被定义为:“在对电子文件及其文件创建和管理有关的人、过程和系统进行确认以及为其提供凭证和背景信息的过程中,有关文件的管理、利用和文件可理解性的元数据。”“电子文件管理元数据是专门设计用于满足电子文件管理需求,有关保证文件的真实性、可靠性、稳定性、安全性、完整性、可理解性和可利用性的数据。”

地理信息数字化描述方法篇9

目前,随着现代信息技术在教育领域的广泛应用,各地的中小学都拥有大量各种各样的教学资源,包括教学课件、教学案例、精品课程教学视频和各类辅助教学软件等,但这些资源往往只能在有限的地域内尤其是校内才能访问,互相之间发现和共享资源都十分困难,形成了许多的“信息孤岛”,限制了不同学校、不同地域的信息交流和资源共享。因此,如何实现不同学校、不同地域之间的资源共享,提高资源的利用效率,避免同类资源的重复开发,是目前中小学教育信息化建设迫切需要解决的问题。

大量资源被分布在不同区域的不同资源节点上,每个节点对其所拥有资源的描述和存储方式各有不同,有的通过各种数据库,有的则通过一些资源描述文件来组织其本地资源,加之各种数据库、描述文件之间往往是异构的,其各自的资源检索机制也是多种多样。显然,在这种环境下,使用传统的集中式的检索机制无法胜任大量异构资源的检索和发现。网格作为一种日益流行的分布式计算平台,为教育资源的共享提供了一种有效的解决方案。在网格的环境下,分布在不同地域、不同主机上的资源可以通过松散耦合的方式实现共享,其中资源的管理、存储机制与传统的集中式的资源组织方式有着很大的不同。

XmL是一种开放标准、简单易用的语言,它支持国际化,与平台、工具、数据库、协议、编程语言无关,并且XmL文件是基于文本的,易读易写,也易于在网络中传播。本文正是利用了XmL语言的这些优点,通过同构的XmL文件对不同资源节点上的本地资源进行描述,生成该节点上本地资源的描述XmL文件,并以此为基础,对多节点的大量资源文件进行分布式的检索。

一、分布式检索子系统的体系结构分析

在教育资源网格的体系结构中,对资源的存储和管理一般被分散在若干个具有不同结构的子节点上,本文定义这种节点为一个资源节点。资源节点一般位于一个较小的教学部门内,存储了该部门一定数量的教学资源,并以web服务的方式供用户和其它资源节点访问。但不同资源节点的资源组织方式往往不同,有的是通过数据库,有的是通过一些描述文件,而且数据库的种类和结构也有很大的差别,这就导致不同资源节点之间资源共享和发现都十分困难。

在以上所描述的环境中,用户如果想访问这些资源,需要登陆每一个资源节点进行检索和下载,但因为资源节点分布广泛,数量众多,用户要尽快的检索到自己所需要的全部资源存在一定的难度。分布式资源检索策略可以有效的解决这一问题,该策略的思想是当用户登陆任何一个资源节点的时候,这个节点除了要检索自己本地的资源以外,还又作为一个客户端,自动地去连接其它资源节点并发出检索请求,将检索结果进行合并和汇总后返回给用户。

二、本地资源的XmL描述

在教育资源网格系统中,资源通过各种协议由资源人上传至资源节点。资源人在上传过程中,需要指定资源的标题、所属年级、学科、作者等描述信息,这些信息往往是资源检索的依据。因此,本地资源的XmL描述文件需要记录以上的资源信息。为了实现所有资源的统一组织,这个XmL文档在不同的资源节点上应该是同构的。

根据以上的思想,需要对XmL文档进行统一规范。在一个资源节点的XmL描述文档中,XmL头部显式定义文档使用UtF-8作为编码方式,以广泛地支持各种字符集。XmL文档以allresource作为根元素,表示该元素下的子元素描述了该资源节点全部资源的信息。allresource元素下包含至少一个resourceitem元素,表明了该资源节点下的一个资源项。在resourceitem元素之下,又分别定义了该资源的各种描述信息,包括标题、所属年级、学科等。

在每一个资源节点上,只需一个节点管理程序,该程序会随着其所属本地资源的变动维护一个XmL文档,它的作用实质上是充当一个资源发言人的角色。其他站点只要通过这个XmL文档,就可以得到这个资源节点所管理的所有资源的信息,包括资源的描述信息和资源的地址信息。因此,对资源的检索过程也就转化为对这个XmL文档内容的检索过程。

转贴于三、基于Xpath的本地资源检索

通过以上论述,对一个资源节点的检索过程可以通过检索其资源描述的XmL文档内容来完成。Xpath是一门在XmL文档中查找信息的语言,它可以用来在XmL文档中对元素和属性进行遍历,使用路径表达式来选取XmL文档中的节点或者节点集,可以通过Xpath语言构造资源检索语句。

在Xpath中,有元素、属性、文本、命名空间、处理指令、注释和根节点七种类型的节点。在遍历过程中,XmL文档是被作为节点树来对待的。树的根被称为根节点,在根节点下,路径表达式可以通过类似windows操作系统文件夹的形式构造。

通过Xpath语言构造出的资源检索语句需要返回XmL文档的资源描述中所包含的用户所提供的检索字符串中的资源项。在上文资源描述的定义规范中,对资源项的具体信息描述,如标题、所属年级、学科等,都是以子元素的形式位于该资源项元素之下,因此,要想获得该资源项元素,需要对已经查找到的包含用户检索字符串的元素进行轴路径查找,以向上回溯获得该元素的父节点,即所要返回的资源项元素。

四、基于JavaRmi的分布式检索机制

在本文所描述的分布式资源共享的环境下,如果仅仅使用本地资源检索,用户需逐个登陆多个服务器以检索所需要的资源,“信息孤岛”的局面依然没有解决,不能满足分布式检索子系统的要求。本文提出一种分布式检索的机制,用户登陆任意一台服务器提交资源检索字符串后,该服务器除在本地进行检索之外,还将字符串检索命令以洪泛的方式提交给它所知道的所有资源节点服务器。所有得到该命令的服务器分别在自己的XmL资源描述文档中查找是否包含用户所需要的资源,如果有,则将该资源的描述信息和地址信息以结果集的形式返回给命令的发起服务器。由发起服务器负责将多个服务器返回的结果集进行合并、排序等操作,最后返回给用户。

基于以上思想,分布检索子系统可以采用JavaRmi技术来实现。JavaRmi是Java的一组支持开发分布式应用程序的api。Rmi使用Java语言接口定义了远程对象,集合了Java序列化和Java远程方法协议。由于J2ee是分布式程序平台,Rmi机制可以实现程序组件在不同操作系统之间的通信,这样就使原先的程序在同一操作系统的方法调用,变成了不同操作系统之间程序的方法调用。发起服务器将检索命令提高的过程就可以看作是发起服务器对远程服务器本地资源检索方法的一次调用,通过Rmi方法特有的JRmp协议,实现两台服务器命令的提交和结果集的返回。

五、分布式检索的缓存策略和流程设计

引入分布式的检索机制后,由于要对用户的查询请求使用洪泛的方式交付给每一个服务器处理,网络的流量负担会加重,造成检索延迟的增大,影响到查询效率。但资源节点服务器拥有的资源项相对固定,在一段时期内对服务器进行特定字符串检索往往会返回同样的结果。因此,采用在本地服务器中保存常用字符串检索结果的缓存策略,会提高资源检索的速度,降低网络流量的压力。为了获取当前各资源节点的最新信息,还需要引入相应的超时和更新机制,限定缓存的生命周期,对缓存进行周期性的更新。

在缓存策略中,什么样的字符串应该被缓存是首先要解决的问题。本文采用的是人工定义的方法,根据经验定义一些字符串作为缓存项,主要是分类检索的各个子项,如按年级分类检索的子项“高一”、“高二”,按学科分类检索的子项“语文”、“数学”等。因为这些字符串相对比较固定且在教育网格的首页设有链接,被检索的几率较高。

为管理好缓存并定时地创建、更新缓存项,在每一个服务器本地定义了一个XmL文档,该文档描述了这台服务器所有检索缓存的字符串名称、缓存更新的时间以及该字符串的类型信息。其中,字符串名称不仅表示检索时所对应的字符串,还表示该字符串检索结果缓存在本地所保存的文件名;字符串的类型由type属性决定;为方便地进行日期比较和时间差计算,缓存更新时间用该缓存项最后的更新时间与1970年1月1日之间的毫秒数来表示。

用户提交检索命令之后,检索子系统首先读取caches.xml文档,检查是否含有相应的缓存项的记录。如果没有,将其作为普通的字符串提交给分布式检索引擎进行检索。如果有,读入该缓存项,提取出该缓存项的时间信息。如果该缓存最后更新时间与当前时间的差t大于规定的超时时间阈值tmax,则认定该缓存项超时,将该字符串提交给检索引擎进行检索,当结果集返回合并后,更新本地缓存文件,并更新caches.xml的相应更新时间信息。如果判定本地缓存项没有超时,则直接读入以字符串名命名的该缓存项的XmL文件,作为结果集返回给用户。

本文设计并实现了一个基于XmL的分布式检索子系统,该系统使用XmL文档作为一个资源节点的资源描述文件,并使用JavaRmi技术实现了分布式、多服务器的检索。为提高检索效率,降低网络流量,还引入了缓存策略。该系统符合教育资源网格系统的要求,有效的解决了不同地域、多种异构教育资源的共享问题。

参考文献

高宏卿,王晓东.基于网格技术的校园网应用研究.计算机应用研究,2005,(9).

地理信息数字化描述方法篇10

论文摘要:随着社会主义现代化的发展,计算机技术的进步,信息技术在社会发展的各个领域都扮演着极其重要的角色。信息化建设更是被我国列为经济社会发展的首要内容。网页档案化管理包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。尤其是大学档案馆更侧重教学与科研,网页档案化管理是必然的趋势。

在信息化发展的今天,图书馆,特别是大学图书馆不仅要对信息进行简单的数字转换和管理,更要对新兴事物网络进行档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理,成为当今图书管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。

所谓数据挖掘(Datamining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

一、数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。

1、关联分析

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

2、聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。数据挖掘的数字档案信息管理研究,聚类技术主要包括传统的模式识别方法和数学分类学。

3、自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

4、概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5、偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

二、数据挖掘在建设现代化高校档案馆中的应用

1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究大学档案用户的信息需求出发,数据挖掘为大学档案馆全面掌握和准确理解档案用户的信息需求提供了方法。

(1)利用web访问信息挖掘技术发现其中的关联模式、序列模式和web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。

(2)收集大学档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。

2、从建设大学档案馆馆藏信息资源出发,数据挖掘为大学档案馆提供了选择一条科学发展道路的重要依据。

(1)利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。

(2)在大学档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。

3、从做好大学档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。

(1)在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。

(2)开展大学档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。

三、数据挖掘在管理类数据中的应用

大学档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系统、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到大学档案馆工作中,并在大学档案馆的现代化建设中发挥作用。

大学档案馆档案工作的重点是为师生服务,以服务为中心开展各项工作,如何使用先进的工具,提高服务的质量是一直困扰我们的难题。数据挖掘为大学档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了大学档案的二次开发,也会给用户带来意外的惊喜。

网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,大学有拨款,图书馆有大学支持,数字图书馆的网络档案馆是不赢利的,产出是教学和科研的长期社会效益。今天,因特网已经越来越商业化了,网络在数字经济中已成为极具潜力的技术投资对象。大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务模式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于大学数字图书馆网络档案馆建设的滚动发展。目前人们对这些处于萌芽中的经济模式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。大学的政策、态度和措施对数字图书馆的发展至关重要。市场手段和政策平衡是网络档案馆建设,网络档案库运行,网上内容传递和保存应该和必须考虑的。

参考文献:

[1]peertopeernetworkingandDigitalRightmanagement,bymichaela.einhorn,BillRosenblatt,policyanalysisno.534,Catoinstitute.Fabruary17,2005

[2]whateveryCitizenShouldKnowaboutDRm,akaDigitalRightmanagement,bymikeGodwinSeuitootechnologyCounselatpublicKnowledge,30January,2008,ebook-Computerinternet,

[3]彼得莱曼.把万维网档案化.信息化参考,2004(13)