首页范文地理信息概述十篇地理信息概述十篇

地理信息概述十篇

发布时间:2024-04-25 22:35:54

地理信息概述篇1

关键词:地理信息系统电子商务物流客户关系管理

一、引言

随着internet的不断普及,电子商务的迅猛发展,世界已进入信息时代,发展信息产业、建设信息高速公路和培养信息建设人才已经成为重要的发展战略。人们不仅需要利用互联网快速检索和交互使用各种社会经济、商务信息,同时越来越迫切需求将这些信息与地理信息有机地匹配和结合起来,以获得这些经济信息的空间分布及其相互关系。

地理信息系统作为一种以采集、贮存、管理、分析和描述整个与地理分布有关数据的空间信息系统,与人类生存、地区的发展和进步密切关联,在我国已受到愈来愈多的重视。

二、地理信息系统概述

地理信息系统(GeographicinformationSystem,GiS)是以地理空间数据为基础,按照地理特征的关联,将多方面的数据以不同层次联系起来,构成现实世界模型,并在此基础上采用模型分析方法,提供多种动态的地理信息,为辅助决策而建立起来的计算机技术系统。

1.GiS的特点

GiS具有其他信息管理系统所不可比拟的优点,其最大的特点就是具备对空间数据的管理功能。具体来讲包括如下几个方面:

(1)共同管理空间数据和属性数据:这是GiS最显著的特点之一。GiS不仅具有管理属性数据的功能,还能采集、管理、分析和输出多种地理空间信息,并且将属性数据集成到空间数据之上,不仅直观而且可实现两者互相查询。

(2)具备强大的空间分析能力:由于空间数据和属性数据的集成以及地理空间模型方法的应用,使GiS具备空间分析、多要素综合分析和动态预测等功能,能够满足地理研究和辅助决策。

(3)具有丰富的信息:GiS数据库中不仅包含丰富的地理信息,还包含与地理信息有关的其它信息,如人口分布、环境污染、区域经济情况、交通情况等。

2.GiS的发展

20世纪70年代后,由于计算机硬件和软件技术的飞速发展,促使GiS朝着实用方向迅速发展,一些发达国家先后建立了许多专业性的土地信息系统和地理信息系统。20世纪80年代,计算机技术的提高为GiS普及和推广应用提供了硬件基础,GiS软件的研制和开发也取得了很大成绩,涌现出一些有代表性的GiS软件,如arc/info、mGe、System9等。GiS的普及和推广应用又使得其理论研究不断完善,使GiS理论、方法和技术趋于成熟,开始有效地解决全球性的难题,例如全球沙漠化、全球可居住区的评价、厄尔尼诺现象、酸雨等问题。

我国GiS的起步较晚,到20世纪70年代末才提出开展GiS研究。进入20世纪80年代后迅速发展,在理论探索、规范探讨、实验技术、软件开发、系统建立、人才培养和区域性试验等方面都取得了突破和进展。1994年4月,我国专门成立了“中国GiS协会”,此后又成立了“中国GiS技术应用协会”,加强了国内各种GiS学术交流,研制推出了Geostar、Citystar、mapGiS等具有自主版权的GiS软件。

网络技术的出现,使得internet成为GiS新的系统平台。利用互联网技术,在web上空间数据,供用户浏览和使用,是GiS发展的必然趋势。与传统的GiS技术相比,webGiS具有访问范围广、平立、系统维护升级方便等特点。

多媒体技术和三维技术也正在进入GiS中,以改善GiS的数据采集、数据处理以及成果表达与输出的效能,发挥声、像等多媒体的应用。目前,图形图像的立体显示己成功地融入数字摄影测量系统(DpS)中,DpS与GiS的集成和多媒体技术的应用将把我们感兴趣的东西变成一个虚拟实体,我们可以通过GiS的输出系统用视觉、听觉、触觉、嗅觉等来感知它。“数字地球”的概念必将成为现实。

随着GiS的深入发展,GiS系统与其它学科结合更加紧密,3S(地理信息系统GiS、遥感RS、全球定位系统GpS)或5S(前面3S加上数字摄影测量系统DpS、专家系统eS)的集成,使得测绘、遥感、制图、地理、管理和决策科学相互融合,成为快速而实时的空间信息分析和决策支持工具,使GiS广泛用于交通、城市规划、公安侦破、车船驾驶、农作物规划和科学耕种等。GiS己经涉及到社会科学、自然科学的许多领域,GiS必将发展成为集社会科学、自然科学于一体的全球性、综合性软科学。

三、GiS在电子商务中的应用

电子商务是在internet开放的网络环境下,基于浏览器/服务器应用方式,实现消费者的网上购物、企业之间的网上交易和在线电子支付的一种新型的商业运营模式。互联网固有的特性既赋予了电子商务有别于传统商务无法比拟的优点,随着电子商务的应用和研究的深入,已经证明电子商务是必须以传统商务为基础,是不能脱离传统商务独立存在。

GiS虽然是地理学研究的成果,但它集地理学、计算机科学、测绘遥感学、环境科学、城市科学、空间科学、信息科学和管理科学为一体,是多学科集成。这种集成使GiS能对各种信息进行加工、处理、融合和应用,为各种用户提供信息服务和管理决策依据。特别是目前webGiS的发展能更好地适应电子商务的网络化需求。

1.在电子商务物流管理中的应用

电子商务离不开传统物流,GiS使传统流通企业在运作方式、技术、管理水平和经营理念上发生了根本性变化,使物流表现出许多新的特点,如信息化、自动化、网络化、智能化、柔性化。将GiS引入到电子商务下的物流管理中,符合GiS和电子商务的特点,也符合物流业的发展。

GiS具有强大的数据管理功能,所存储的信息不仅包括以往的属性和特征,还具有了统一的地理定位信息。因此能将各种信息进行复合和分解,形成空间和时间上连续分布的综合信息,支持各种分析和决策。这是其他信息系统所不具备的优势之一。

(1)交通路线的选择。在电子商务的物流管理中,涉及到物质实体的空间转移,运输和仓储站中成本的70%以上,因此交通运输方式及路线的选择问题直接影响物流成本的多少。这都属于空间信息的管理,这正是GiS数据管理的强项。在基于GiS的物流分析中,对于网络中最优路径的选择首先要确定影响最优路径选择的因素,如经验时间、几何距离、道路质量、拥挤程度等,采用层次分析法,确定每条道路的权值。物流分析中的路径可以分为这样三种情况:

①两个特定的地点之间的最佳路径;②一个地点到任意点之间,从一个地点到多个地点之间,车辆数量以及行驶路线选择;③网络中从多个地点运往多个地点的最优路径选择配对。

对于前两种情况都可以采用经典的Dijkstra算法实现。对于第三种情况,可以采用管理运筹学的运输模型结合Dijkstra算法实现,可以选用Floyd算法或是根据著名的旅行商问题(亦称货郎担问题)的解法求解。在求得最优路径的基础上,再根据现有车辆运行情况可确定车辆调配计划。

(2)机构设施地理位置的选择。对于供应商、配送中心、分销商和用户而言,需求和供给这两方面都存在着空间分布上的差异,此外供应商和分销商其服务范围和销售市场范围也具有一定的空间分布形式,因此物流设施的布局是电子商务下物流管理所必须面临的问题,其合理程度直接影响利润获取的多少。机构设施地理位置的选择包括位置的评价和优化。评价是对于现有设施的空间位置分布模式的评价,而优化是对于最佳位置的搜寻。地理位置的合理布局实质上就是在距离最小化和利润最大化两者之间寻求平衡点。现有的针对市场功能区域进行空间分析和模拟的模型很多,如Batty的裂点方程、peily的零售重力模型、tobler的价格场和作用风以及空间线性优化模型。

(3)车辆运输动态管理。全球卫星定位系统(GlobalpositionSystem,GpS)是20世纪产生的一项高科技系统。在物流领域,GpS能广泛地应用于各个环节,如用于汽车的定位、跟踪、调度,这样能极大地避免物流的延迟和错误运输的现象,货主可以随时对货物进行全过程的跟踪与定位管理。此外还能掌握空中交通以及铁路运输中有关货物的动态信息,增强了供应链的透明度和控制能力,提高了整个物流系统的效益和客户服务的水平。GiS能接收GpS数据,并将它们显示在电子地图上,这在很大程度上能帮助企业动态地进行物流管理。

2.数字城市——电子商务和运营平台

数字城市的核心是地理空间信息科学,地理空间信息科学的技术体系中最基础和基本的技术核心是“3S”技术及其集成。

数字城市是以空间信息为核心、以网络为支撑的城市信息管理与服务体系。数字城市建设的任务就是利用现代高科技手段,充分采集、整合和挖掘城市各种空间信息资源,建立面向政府、企业、社区和公众服务的信息平台、信息应用系统等。地理信息系统平台是数字城市建设的核心任务之一,它为城市发展和信息化建设提供统一的空间定位与基础信息公共平台,进而实现城市信息资源按照地理空间位置的整合和共享。

一个实用、可行的城市规划信息系统,不但可以满足规划管理部门的城市规划、城市建设、城市管理、辅助决策的要求,而且能够提供出行、购物、旅游、交通、教育、文化、娱乐、房产交易、证券交易等综合信息服务,是数字城市与大众的联系纽带。

地图信息服务是城市综合信息服务的一个重要部分,可以建立企业机构的各个地理位置数据库,为企业管理人员和客户灵活方便掌握企业机构的地理分布情况和相关资料,并在此平台的基础上提供企业门户网站向客户宣传介绍企业相关信息和业务,也可作为第三方企业单位的宣传和广告啊分布平台,起到提升企业形象的作用,为企业获取相关收益。

3.客户关系管理中的应用

GiS作为一种空间信息输入、处理、存储、管理、分析和输出的技术,其应用的核心在于空间现象、过程和规律的可视化分析,表面上GiS与客户关系管理(CRm)不相关,但实际上,GiS提供全方位的信息,历史的、现在的、空间的、属性的。通过这些可以获得客户资料以及与企业相关的综合数据,如用户的历史购买力、购买行为、年龄构成、地理分布;所在区域的交通状况、经济发展程度、消费水平等。从而帮助企业做出企业和客户的空间分布、物流、营销等方面的决策。与此相联系的是一系列通用数据库文件,它具有常用的状态信息,包括各种事件记录、资源调查、交通状况以及生产流通、存储与销售状况等内容。这些图形由许多彩色图形标志,如线段、圆圈组成,这些图形可与背景地图叠加,显示客户关系管理中有关区域的变量之间的分布特征,与此同时,还可以通过地理信息子系统,显示客户关系管理产品配送路线,区域商业环境等。GiS系统为整个系统提供了更为直观、形象的图形分析和管理工具。在此基础上,进行如消费趋势分析、销售力量分析、目标市场分析以及潜在客户分析等,为管理者提供决策支持。

组件式GiS软件,使GiS应用可视直接嵌入到CRm系统中,实现无缝集成;采用关系数据库,将GiS数据于CRm数据统一存储和管理。随着internetGiS技术的发展,GiS在CRm中的应用更加广阔。

四、结束语

地理信息系统与电子商务历史上是独立并分开发展的不同系统,但是在当今信息化、网络化的时代,各种信息技术的整合是大势所趋。无论从技术特征上、体系结构上、操作的可行性上来讲,它们的结合都是切实可行的,而且是有价值的。将GiS技术引入到电子商务的物流管理、客户关系管理,不仅开拓了GiS的应用领域,同时也促进电子商务自身的发展。

参考文献:

[1]张铎:电子商务与物流[m].北京清华大学出版社,2000.1

[2]陈述彭鲁学军周成虎:地理信息系统导论[m].北京科学教育出版社,2000.1

[3]陈倬李根洪:数字城市地理空间基础框架建设的初步研究[a].成都地图出版社2002

地理信息概述篇2

关键词:盲数理论;不确定性;风险评估

在开展风险评估之前,一般需要定量描述风险的发生概率,但在实际工作中,往往缺乏充足的历史统计数据,基本上依赖专家的主观经验定量估算风险的发生概率值,这就产生了风险发生概率的“不确定性”问题,其最终制约着风险评估结论的可信度。因此,本文在具体分析风险发生概率不确定性来源的基础上,提出应用盲数理论估算风险发生概率。

1风险发生概率的不确定性来源

对风险进行定量评估,核心问题就是如何准确地描述风险,即如何解决风险发生概率的不确定性问题。目前,对事物的不确定性,人们已经发现了四种,包括随机性、模糊性、灰性,还有未确知性[1]。由于事物的不确定性既源于系统内在不确定性,也产生于模型的不确定性、参数的不确定性和获取信息的不足与不精确性[2]。因此,对于不同的不确定性信息,其处理方法不尽相同。对于随机性信息,一般采取概率统计方法,但在确定概率均值及均方差等统计量时,需要具备大量的统计数据,而现实情况则是往往缺乏足够的统计资料支持参数估计,因而难以清楚认识均值及均方差。模糊性信息一般采用模糊数学方法,人们通过隶属度概念描述对事物的不同认识。灰色信息以区间数的形式描述对事物取值范围的不确定性,运用灰色系统理论予以解决。而未确知信息,主要源于认识上的主观性,运用未确知数学表达和处理。

从风险管理实践可以看出,风险评估研究面临的首要困难就是缺乏足够的历史统计数据,说明采用概率统计方法定量描述风险往往是难以实现的。并且,由于系统的复杂性,导致定量描述风险时,受多种因素影响,风险信息可能随机性、模糊性、灰性、未确知性兼而有之且交叉作用,产生“信息混沌”情况。同时,提出风险管理需求的单位,通常具有一支实践经验丰富的专家群体,这是开展风险评估的便利条件。因此,对风险进行定量描述,选择数学方法时要考虑三个条件:一是能充分利用好专家群经验信息;二是通过数据处理,能够降低专家信息的主观性;三是能够有效解决“信息混沌”的不利影响。

基于以上考虑,本文提出应用盲数理论估算风险发生概率。盲数理论是我国王光远院士在20世纪90年代提出的一种可以基于专家群经验的、能够有效解决“信息混沌”的理论方法[3]。在定量描述风险发生概率时,由于面临“信息混沌”情况,导致难以确定风险发生概率的真实状态。盲数理论以处理未确知信息为主,对不确定性信息以区间灰数及其可信度值来反映。应用盲数理论处理风险发生概率中的不确定信息,可以用区间数表示风险发生概率的随机性和灰性,将专家主观及经验信息包含在可信度中,通过综合处理多名专家意见,最终能够获得较为真实、准确、合理的风险发生概率估算值[4]。因此,采用盲数理论估算风险发生概率具有理论上的可信性。

2盲数基本概念

2.1盲数的定义

地理信息概述篇3

关键词:基本准则;概念框架;财务报告;会计制度

中图分类号:F235.99文献标志码:a文章编号:1673-291X(2009)26-0112-02

一、中韩两国财务会计概念框架差异比较

中韩两国概念框架都是借鉴国际iaSB(国际会计准则理事会)概念框架制定出来的,因而从本质上看,中韩两国概念框架大同小异。但仔细研究发现,中韩两国概念框架在以下几个方面还存在着差异。

(一)在体例结构及表述方面的差异

中国2006年新的基本准则在称呼、体例安排和内容表述等方面,较大程度地保持了1993年首次的基本准则风格。由于中国的基本准则属于法规的范畴,其主要功能被定位在指导中国具体准则的制定上,因而从其表述的形式上看,更多地体现了法规式的概念框架特征,具有高度的概括性,并隐含着概念框架本身应该具有的内在一致性。

韩国概念框架不论从体例结构安排还是在表述方式上,都借鉴了iaSB概念框架的风格,各部分内容的表述比较详尽,逻辑关系比较清晰。比如,在概念框架第一章指出了会计信息使用者及其对会计信息的需求;在第二章明确指出,其定位的会计目标是根据绝大多数会计信息使用者对会计信息的需求提出来的;在第三章又指出,概念框架对会计信息质量特征的设计及企业对它们的取舍应依据最大限度地达到财务报告的方向进行。

(二)在会计目标方面的差异

中国基本准则第一章提出了财务报告的目标。从本质上看,中韩两国对会计目标的表述大同小异,因为两国都认为财务报告应该同时提供对投资者决策有用的信息和反映受托责任履行情况的信息。但两国对会计目标定位的侧重点略有不同,韩国概念框架更强调提供对投资和信用决策有用的信息,相比之下,中国基本准则更强调提供以可靠性为特征的受托责任信息。比如,在对会计目标的表述上,基本准则将提供受托责任信息放在了第一位;在会计信息质量特征的表述中,基本准则将可靠性放在了第一位;在会计计量的表述中,基本准则指出:“企业在对会计要素计量时,一般应该采用历史成本。采用重置成本、可变现净值、现值、公允价值计量的,应当保证所确定的会计要素金额能够取得并能可靠计量。”而在会计计量属性的选择上,韩国概念框架第150条指出:“在不存在计量误差的条件下,依据公允价值或企业持有价值的计量将会比其他计量基础提供更有用的信息。”

(三)在会计信息质量特征方面的差异

中国基本准则的第二章描述了八条会计信息质量特征,主要包括可靠性、相关性、可理解性、可比性、实质重于形式、重要性、谨慎性和及时性。但并没有明确表述会计信息质量特征与会计信息之间的逻辑关系,没有将会计信息质量特征划分层次,也没有对会计信息质量特征彼此之间可能产生的矛盾做出必要的说明。在会计信息质量特征的表述形式上,基本准则表现出高度概括的法规式的概念框架特征。

韩国概念框架第三章描述了会计信息质量特征。与中国的基本准则相比,这些特征的安排具有以下特点:1.明确指出会计信息质量特征的表述与财务报告目标是相符的。2.区分了不同层次的会计信息质量特征,并将相关性和可靠性定位为会计信息的主要特征;将可靠性定位为次要特征。其中相关性排在首位,被分解为预测价值、反馈价值和及时性三个特征;可靠性排在第二位,被分解为如实反映(又被分解为实质重于形式和完整性两个特征)、可验证性和中立性。3.强调重要性和成本效益原则是影响会计信息质量的制约因素。4.没有明确提出谨慎性的会计信息质量特征。

应当说,韩国会计信息质量特征的这种安排,在总体上借鉴了美国FaSB(财务会计准则委员会)概念框架的做法,它强调了美国会计信息质量所强调的相关性与可靠性,并指出当这两个首要特征出现矛盾时,应该以满足投资人决策的需要为主。从理论上讲,韩国会计信息质量特征的这种安排与其对会计目标的定位有着严密的逻辑关系。

尽管中韩对会计信息质量特征的表述方式和侧重点有所不同,但从主要特征的涵盖面上看,中韩两国财务概念框架还是具有较大共性的。

(四)在会计要素分类方面的差异

关于会计要素的分类,中韩两国与iaSB概念框架之间都表现出不同程度的差异,而它们各自之间在这方面也有不同。相比之下,中国基本准则与iaSB概念框架对会计要素的分类更相似。可以说,韩国与iaSB概念框架在会计要素分类方面的差别,基本上也表现为中韩两国之间在这方面的差异,如韩国设置了现金流量表要素和权益变动表要素,而中国没有设置;韩国设置了综合收益要素,而中国也没有设置。但关于利得和损失的界定,韩国与iaSB概念框架的安排基本一致,即只将它们安排为损益表要素,而中国则将其区分为直接计入当期损益的利得与损失和直接计入所有者权益的利得与损失。

(五)在会计计量方面的差异

韩国概念框架对会计计量属性进行了重新归纳,比中国多了企业持有价值和账面净值两个计量属性。由于企业持有价值就是资产或负债的现值,而账面净值就是一种摊余价值。这样来看,中韩两国关于会计计量属性的规范并不存在本质上的差异。中韩两国关于会计计量属性的差别就在于韩国概念框架对会计计量属性进行了重新归纳。另外,韩国概念框架中详尽描述了公允价值的概念,并在第七章第150条关于计量基础的选择原则中指出:“计量资产和负债时,选择哪种计量基础,应从为财务报告的目的服务的信息有用性,即从相关性和可靠性观点出发进行判断。在不存在计量误差的条件下,依照公允价值或企业持有价值的计量将比其他计量基础提供更有用的信息。”

二、中韩两国概念框架产生的背景

中韩两国概念框架都是在进入21世纪以后,在会计准则国际化的一片呼声中、借鉴国际流行的概念框架建立起来的。每一个国家都有自己的经济环境,会计制度的建立要符合各自的经济需求。而除了市场经济发达程度的差异外,政治力量、历史和文化背景也是决定这种差异的重要因素。因此,两者的基本构架以及会计目标理论的导向并不完全相同。

(一)我国的经济背景

我国尚处在经济转轨时期,在经济、社会、文化、法律监督等方面和发达国家存在较大差异。我国的经济背景是市场体系尚不完善,法律制度不够健全,会计造假普遍,会计信息失真现象严重;缺乏充分和公开的市场竞争,企业间的交易行为也不规范,内部治理结构薄弱,政府还具备相当的影响力;我国财务信息的使用者还不能完全以投资者为主。因此,从新准则看我国会计国际趋同,则是充分考虑了我国的客观环境和特点,在对会计目标的考虑上还必须兼顾国家宏观管理、投资者决策和公司内部管理等多方面的需要。

(二)韩国的经济背景

韩国概念框架的目标导向与这几年来韩国经济发展模式的定位是分不开的。1997年韩国经济危机发生的主要原因之一,是韩国企业的政府主导型经济体制,导致的经营不够透明以及会计信息的可信性低下等因素造成的。为了克服金融危机,韩国政府对金融、企业、公共、劳务市场等几个部门进行了大规模的改革,改革的基本方针是从政府主导型经济转换到市场经济,全面采用国际标准的经济发展模式。从改革内容上看,它是以20世纪90年代,美国实施的世界经济的重组模式,即活跃市场经济模式为目标的。为实现这一目标,韩国在会计准则管理模式上进行了改革,试图将韩国的企业会计准则变成面向未来的、具有国际先进水平的会计准则体系,从而尽大可能地在财务报表上正确反映企业经营成果等信息,来增加企业经营的透明度,以提高国外对韩国财务信息的信赖程度。在这样一种经济形势和经济发展目标引导下,韩国概念框架全面借鉴国际流行概念框架的做法就顺理成章了。

总体上,韩国的概念框架在相当大的程度上借鉴iaSB和FaSB概念框架的特点,会计目标以维护职业投资人利益为导向,会计信息比较强调相关性。而中国的基本准则更具有法规式的概念框架特征,会计目标没有明显偏向职业投资人,会计信息更强调可靠性。

三、对中韩两国概念框架的恰当性评价

地理信息概述篇4

【关键词】电子信息工程;现代化技术;刍议

0引言

21世纪是一个信息技术快速更新变化和发展的时代,电子信息技术受到了社会各界极为广泛的关注和重视。毫无疑义,电子信息工程的发展受到人们广泛关注和热议的主要原因在于:我国不断加强科研方面的投资力度,科学技术蒸蒸日上,取得了前所未有的突破性进展和成效。从目前看来,相当一部分行业领域对各自的电子信息技术进行了深化改革和完善,最大限度地提升了我国社会的生产力水平,十分有效地促使我国社会经济水平大幅度攀升。在信息技术中,电子信息工程是其十分重要的组成部分之一,对科学技术的进步和社会长远发展起到至关重要的推动和促进作用。

1电子信息工程的概念及内容概述

一般来说,采用一定的先进技术,科学、合理地控制和处理电子信息的学科被称为电子信息工程。资料显示,电子信息工程研究涉及的范围十分广泛。从某种程度上说,信息系统和电子设备的集成、涉及和开发是信息工程研究内容十分重要的组成部分。随着当今时代的迅猛发展和变化,与传统的电子工程研究内容相比,现有的电子信息工程的范围越来越广,涉及的研究内容越来越丰富。值得肯定的是,相当一部分电子信息工程内容与电子信息工程现代化技术有着十分密切的联系。这些电子信息工程内容包括:信息数据传递、手机声音、网络数据传递、电话信号处理和图像传递等等。实践表明,只有注重和强调在新产品的研发上投入十足的精力、人力、物力,才能十分有力地促使我们更好地掌握的了解这些电子信息工程内容。

2电子信息工程的发展现状

对电子信息工程的概念及内容概述进行了较为系统地了解和阐述之后,接下来,我们全面、深入地探讨电子信息工程的发展现状,希望能够对电子信息工程的现代化技术刍议的实践工作起到一定的启示和帮助作用。

从目前看来,电子信息工程已经渗透到各个领域。在相当一部分领域中,电子信息技术取得了较为广泛的应用和认可,一定程度上加快推动了社会现代化的发展进程。这些领域包括:第三产业、农业和工业等等。随着当前经济水平的大幅度攀升,相当一部分新产品和新技术顺利将行业之间的界限打破和割裂,促使新技术业务的产业链取得了前所未有的突破性进展和成功。从某种程度上说,相关方面只有对大行业管理模式进行较为深入、细致地探讨和了解,才能最大限度地促使行业间的合作更加和谐,共同谋求利润的最大化。实践证明,我国政府在充分尊重市场调节的基础上,科学、合理地制定和完善相应的货币政策和财政政策,十分有利于大大增强电子信息化工程的实用性和科学性,有利于为信息化工程的健康、稳定、长久发展创造比较良好的外部环境。不可否认的是,电子信息工程现代化技术进行深入研究具有一定的必要性和重要性。在实践中,我们不难发现,电子信息工程现代化技术应用的过程中,存在着不少问题和难点,有待我们进一步分析解决和妥善处理。这里需要明确的是,产品市场环境恶劣和国家政策支持力度不够是最为主要的难点问题,应该引起有关方面的关注。

3推动电子信息工程现代化技术发展的措施

对电子信息工程的概念及内容概述进行了较为系统地了解和阐述之后,我们全面、深入地探讨电子信息工程的发展现状,提出了推动电子信息工程现代化技术发展的两点有效措施,希望能够加快推动电子信息工程的现代化技术研究的发展进程。

3.1加强国家政策扶持力度,优化电子信息资源环境

为了加快推动电子信息工程现代化技术发展,为了有效地对电子信息资源环境进行优化和改善,为了进一步确保电子信息产业的长久、稳定发展,中央和地方政府应该最大限度地加强政策方面的支持力度,设立相应的电子信息工程基金,进一步打开融资和投资渠道。从某种程度上说,中央和地方政府只有系统、全面地引导相关工程,并且对这些工程进行科学、合理地适度开发,才能进一步促使技术改造项目和产业自主创新能够顺利进行。这些工程包括:软件信息服务、电子通信产业、数字电视、电影推广和互联网应用等等。

3.2加强现代化技术投资力度,培养创新思维的专业人才

实践表明,只有大力培养电子信息工程的现代化技术创新型人才,才能进一步促使我国电子信息工程更好、更快、更稳地发展。对于广大企业来说,通过不断优化和改善现有的企业环境,不断加强现代化技术投资力度,这在一定程度上给企业的整体印象和实力加分,为相当一部分高素质人才打造了一个充分展示自我,发挥自己才智的平台,从而更好地吸引相关方面的高素质人才积极投身到企业的建设中。更进一步说,企业不断加强现代化技术投资力度,注重培养具有创新思维的技术型人才,能够十分有效地为我国的电子信息工程技术研发注入一定的催化剂,能够促使这些电子信息工程的创新型人才更好地掌握和了解先进的科学知识和前沿理论,能够最大限度地拓宽我们电子信息技术知识面。这里需要明确指出的是,加强电子信息知识产权保护力度,提升产品的服务意识不容忽视。

4结语

毫无疑问,计算机应用具有一定的优势和特点,它作为一种全新的信息传播方法,能够十分有力地推动整个社会经济向制度化、规范化、信息化发展。值得肯定的是,拥有比较强的计算能力是计算机应用的主要优势之一。本文较为系统、全面地阐述了电子信息工程的概念及内容概述,对电子信息工程的发展现状进行了细致地论述,接着,提出了一系列推动电子信息工程现代化技术发展的措施,希望能够进一步实现电子信息工程的现代化技术刍议的预期效果。

【参考文献】

[1]陈鸿.关于实现电子信息工程的现代化技术的探究[J].电子制作,2013(02).

[2]徐周乐.新形势下电子文件及档案信息化的管理策略[J].科技创业家,2011(06).

地理信息概述篇5

关键词:论述类文本阅读技巧解题方法

一、理解文中重要概念的含义

文中的“重要概念”指以下内容:1.代表文章重要信息的概念或术语;2.体现作者在这篇文章中的立场观点或表现文章主题思想的词语;3.内涵丰富、表意含蓄的词语;4.在当前语境下有特定意义的词语;5.对文章结构起重要作用的词语。

“理解文中重要概念的含义”实际上就是理解重要概念在当前语境下的意义,即作者直接或间接赋予概念的意义及受上下文制约而应具有的意义。

本考查点能力层级为B级,题型一般以单项选择题的形式呈现,偶有简答题的形式。

技巧点拨:对于概念的理解实际包含两个层面:一是对概念本质特征的把握,二是对与概念有联系的相关信息的把握。阅读文本时应注意区分开这两个方面的信息。解答选择题,立足于概念的本质特征方面的信息,关注关联信息的细微之处。解答简答题,重点在本质特征信息的把握上,注意答题的要点及各个要点的信息角度。语言表述要简洁、精炼、通顺、规范,有高度的概括性,体现要点要全面具体,没有冗余和遗漏,要点的序列要得当。

二、理解文中重要句子的含意

“重要句子”通常指以下几种:1.体现作品主题思想或重要观点、感情倾向的语句,如主旨句、重点议论抒情句等;2.显示脉络层次的关键性语句,如领起句、总结句、过渡句等;3.内涵丰富,表达含蓄,对增强文章表达效果有重要作用的语句,如句式特殊的语句、含有修辞格的语句等;4.结构比较复杂、对理解文章有重要影响的语句,如一些结构复杂的单句、关键位置上的复句等。

本考查点能力层级为B级,题型一般为单项选择题或简答题。

误区警示:解答本考点题目常常出现的误区是:①观其一点,不及其余。有的学生常常是看见了句子,看不见语境,更看不见文章和文章的标题(或话题),结果对句子的理解往往是一叶障目,片面偏颇。②观其大略,不究细处。有的学生只注意对句子大概意思的把握,不注意细小的差别,特别是常常忽视一些修饰限制语的细小变化,结果答题时因小失大。③观其字面,不挖深意。有的学生思维方式太直观,不能领略句子的言外之意,因而无法准确到位地把握句意。④观其意尽,不能言传。有的学生能理解句意,但不能确切地表述句意,要么不准确、不到位,要么不严谨、不流畅,结果造成做简答题时遗憾失分。

技巧点拨:解答本考点的题目,主要有四点技巧:①以词语解句。对句中关键词语的理解往往是句意理解的命题点,弄清关键词语的内涵句意就好把握。②以手法解句。特殊表达手段使句子在理解时有一定难度,弄清表达特点,特别是一些修辞手段的具体特点,联系句子的话题及其他相关因素,顺应话题方向即可解读句子。③以结构解句。一定要注意分析句子内部的结构或逻辑关系,因为从句子本身来讲,结构和逻辑关系是命题的重要关注点。④以文段解句。本着“句不离篇”的原则,把解读语句的眼光扩展到句子在文中的位置及上下文中的照应因素等方面。

三、筛选并整合文中的信息

对于论述类文本来说,信息主要指两个方面的内容:一是在文中显示观点态度的语言材料,包括作者的观点态度、作者引述的别人的观点态度等;二是文中用做论据的叙述性或说明性材料。筛选信息指根据一定的目的要求或按照一定的标准,经过辨别、梳理把相关信息提取出来;整合信息,就是将从文中筛选出的相对分散的相关信息集中起来,并进行加工组合,形成一个条理化、系统化的信息链。

本考查点能力层级为C级,题型一般有三种:单项选择题、多项选择题(一般为两项)、简答题。

方法探究:解答本考点选择题型的题目,要掌握四个要点:①审准题干定标准。筛选信息的标准源于题干,要把握题干的要求方向,推敲具体的细微要求,为准确筛选信息把好第一关。②把握选项定要点。选项的把握其实包含两个方面的内容:一是选项表述的具体内涵,二是选项和题干之间往往存在因果或条件关系。题干是果,选项是因,依据文本,逻辑关系成立,选项就是正确的。③面向文本找对应。信息源于文本,把选项与文本的具体区域和具体语句对应起来,进行比照,信息的正误就好确定。④整体观照再整合。整合信息往往涉及文中多个信息点,需要整篇把握或整段把握。重叠交叉的信息要“提纯”,不同信息要并列或组合。针对选择题,要注意看选项中的信息是否“提纯”或“提纯”是否正确,并列或组合是否得当。

四、分析文章结构,把握文章思路

分析文章的结构就是理清文章素材的组合框架,把握文章的思路就是把握文章的思想脉络或行文线索。具体来说就是划分文章的结构层次,弄清文章段落层次的组接关系,掌握文脉的发展方向,破解开头结尾、过渡照应等问题。

本考查点能力层级为C级,题型一般为简答题,偶有选择题型。

解答题目应该从以下几个方面入手:(1)从话题入手,探寻文章思路,把握结构特点。话题是文章的核心,文章是围绕话题展开的,抓住话题,提纲挈领,就能理出文章的脉络。(2)从关系入手,理清文章的层次。文章的段落层次有三种表现形式:第一种是相承关系,包括承接关系和递进关系;第二种是相并关系,包括并列关系和对照关系;第三种是相属关系,包括总分关系和分总关系。层次之间的界限就分明。(3)从标志词语入手,勾画线索和结构框架。标志词语是行文的“路标”,沿“路标”前行,脉络自然呈现。

技巧点拨:解答本考点选择题类的题目,首先要注意文本的体裁特征,通过对一般议论文结构特点的掌握对照文本,以初步判定文本的基本结构特征,进而大致勾勒其行文的思路。其次,在对文本有一个通览性认识的基础上,以映照的方式拿选项与原文对照。吻合程度高且相对具体的选项就是正确的选项。如本题C、D两项的说法过于笼统。再次,注意题目对分析文章结构、把握文章思路的重要作用。

五、归纳内容要点,概括中心意思

“归纳内容要点”包括三层含义:(1)具体内容能加以概括;(2)抽象的内容能加以阐发;(3)含蓄的内容能加以解说。“概括中心意思”包含两层含义:(1)论述什么内容(指论述的中心或中心论点);(2)作者的基本观点,对文章的价值判断。

内容要点的具体呈现方式主要有:(1)论点及分论点;(2)论点的若干论据;(3)现象背后的本质;(4)产生现象的原因;(5)发展导致的结果;(6)分析得出的结论。中心意思一般概括后才能得出,少数以观点句的形式直接呈现。

本考查点能力层级为C级,题型一般为简答题,偶有选择题型。

方法探究:归纳内容要点,在吃透题干的基础上,要有“三看”:一看信息分布何处,二看层次共有几条,三看语言哪些重要。

概括中心意思,心中牢记“四抓”:一抓话题,明确作者是就什么立意;二抓目的,探究作者为什么而写;三抓结构,对行文思路有清醒的认识;四抓表述,看是否遵从基本样式。

技巧点拨:解答归纳概括类简答题,要“归”而有序,“纳”而有结,概括全面能“辐射”。具体来说,有以下三点技巧:①依据题干找到相类信息点。能回答问题的信息点可能有多个,有的接近但不完全,有的可能似是而非,但原则是先找到,后比较,再提炼。②尊重原文尽量采用文本语言。回答问题时,尽量尊重原文语言的意义、色彩和格调,特别是一些关键词一定要在答案中体现出来,切忌不做加工地盲目照搬。

六、分析概括作者在文中的观点态度

作者在文中的观点态度指作者针对文中涉及的话题或问题所持的或赞成、或反对、或提倡、或贬抑等认识或评价。它在文中的呈现方式有两种情况:一是作者在文章中明确提出来的意思,即明示信息;二是作者在文中没有明白说出来的意思,即隐含信息。

分析概括作者在文中的观点态度就是对文中明确提出来的观点进行分析、阐释或评价,转换成自己的语言表述;对作者在文章中隐含的观点进行归纳、提炼、概括,使之明朗化、具体化、简约化。

方法探究:对作者观点的表述一般是对于原文来说,选项是变换了的说法。变换方式常见的有:(1)表述角度的变化。依然是原文观点,只是变换一下表述角度。(2)表述句式的变化。同一意思,采用与原文不同的句式。(3)文中对同一观点有不同的说法。错误表述的呈现方式主要有以下五种情况:(1)遗漏背景、语境因素或相关限制;(2)张冠李戴故意混淆界限;(3)突然逆转与作者观点相悖;(4)超出范畴硬性嵌入信息;(5)模糊含混制造似是而非。

针对以上述情况,解题的具体方法策略是:(1)立足不变,对照变化的内容,判断其实质,看是其形式变化还是内容变化;(2)采用“如果我说,该怎么说”的方式,印证选项对作者观点的表述是否有出入;(3)以原文中的相关信息为条件或原因,以选项为结果,组成一个复句,看关系是否成立,成立则对,不成立则错。

技巧点拨:理解作者观点,实际上就是对作者观点进行阐释,而阐释的语言主体还是源于阅读文本,因此,文外题目还应文内答。具体可采用如下技巧:(1)以具体观点阐释概括性观点,或以分论点解说总论点。(2)以对事例的理解概括阐释作者观点。(3)从反例推断解读作者观点。

参考文献:

地理信息概述篇6

关键词:计算机应用;中文信息处理;词语语义相似度;知网;“义原”;语义信息量

中图分类号:tp391 文献标识码:a

1引言

语义相似度,在信息检索,信息抽取,词义排歧,机器翻译等都有很大的应用。词语的语义相似度的计算,主要有两类计算方法:一类是通过树型的义类词典来获得;一类是通过词语上下文的统计背景信息获得。在一颗或几颗树上计算节点的相似度的方法研究相对比较成熟,比如Resnik's[1]、DekangLine[2]都给出了比较合理的计算理论和公式。

但中文词语的相似度计算并不能直接借用国外研究人员在wordnet中的方法。原因在于知网并没有像wordnet一样将所有的词组织在一个分类的层次体系中(树状结构中),而是精心选取了一个“语义单位”――“义原”的集合,然后用这个集合中的元素来描述中文词语/概念。“义原”被组织在几颗层次树中,可以借用在wordnet的分类体系中计算词语相似度的思想。如何通过“义原”的相似度来得到词语/概念的相似度,成为利用知网计算中文词语相似度的关键所在。我们在这篇论文里提出“义原”本身所含信息量具有大小之分,而它所含有的语义信息量决定着它对概念的描述作用(区分此概念和其他概念)。另外,在“义原”对概念的描述方式上,我们也提出了自己的观点:认为描述/定义一个概念的“义原”分为直接描述和间接描述两个部分。

接下来的第2部分,我们将首先从两个角度来简要地介绍《知网》;第3部分给出《知网》中词语相似度的计算归结为“概念”相似度的计算;第4部分讨论“概念”的相似度如何由描述它的“义原”的相似度得到;第5部分给出我们计算“义原”之间相似度所采用的公式。第6部分为我们的实验结果和分析。最后第7部分是我们的结论。

2 《知网》2000介绍

《知网》][3]是我国著名机器翻译专家董振东先生逾十年功夫创建的一个知识系统。它含有丰富的词汇语义知识和世界知识,内部结构复杂。我们主要从语义词典和世界知识库两个角度对《知网》进行理解分析。

2.1 《知网》是一部语义词典

《知网》的基本形式是对中文词语的释义和描述。与一般的语义词典如wordnet不同的地方有两点:

第一,词语(概念)的意义不是通过一些其他的常用词语来解释、说明,而是通过“义原”来描述、定义。比如“打”(打篮球,打太极),这个词有一项描述是:

DeF=exercise|锻炼,sport|体育

“锻炼”和“体育”就是两个义原。《知网》作者总共定义了1600多个这样的义原一汉语中“最基本的、不易于再分割的意义的最小单位”,然后用它们来对3万多个中文词语进行解释描述。义原的具体分类如下(数字标号为义原个数):

aevent|事件813

bentity|实体142

cattribute|属性/aValue|属性值433

dquantity|数量/qValue|数量值13

eSecondaryFeature|次要特征100

fsyntax|语法41

geventRole&Features|动态角色和属性74

《知网》作者认为义原是比词语更小一级的语义单位,但我们更倾向于这样的理解:这1600多个义原是中文语言的一个核心词语集合,和词语是同一级的语义层次。《知网》用这个核心集合构成的语义内涵(语义特征)去描述所有中文词语。因此,我们认为义原分类隐含着如下的语法结构:“实体”义原,描述万物,名词的核心集合;“事件”义原,描述动作,动词的核心集合;“属性”/“属性值”义原和“数量”/“数量值”义原,描述属性(属性程度),形容词副词的核心集合;“语法”义原,对应助词、代词、介词等不含有直接语义信息或含较少语义信息的词类。“次要特征”义原,专门规定,用来描述事物类概念(名词类)的次要特征。“动态角色和属性”义原,专门规定,描述事件类概念(动词类)的内容和特征。

第二,词语不是组织在一个树状的层次体系中,而是存在一种网状关系[4]。

首先,用来描述词语的义原之间存在多种关系。我们认为在《知网》2000中,义原之间的主要关系有:上下位关系;属性关系,指“实体”类义原(置于口中,见图1)和“事件类义原”的共性(置于{}中);对义关系和反义关系。其中最基本的仍然是树状层次体系中的上下位关系(见图1)

其次,借助一些标识符号对概念进行描述,这些标识符体现了各种关系。(见表1)

从表1的例子中可以看出,《知网》义原加标识符来定义词语的方式不但给出了词语的语义信息,比如“医院”是医疗场所,也显式地给出了概念之间的联系,比如“医治”的实施者是“医生”,受事者是“患者”,而地点是“医院”。又比如:“布”是“衣物’’的原材料,而“t恤”的定义是:DeF=clothing|衣物,#body|身。我们就可以推理出“t恤”的原料是“布”。这种联系正是《知网》作者所要反映的“世界知识”。

2.2 《知网》是一个世界知识库(aknowledgebasesystem)

何谓“世界知识库”?我们引用ontology的定义来说明,“与词典和分类表类似,但包含有更详细的信息,最重要的是其组织方式能够让计算机处理和识别”。比如上文提到的“推理出‘t恤’的原料是‘布’”,《知网》借助于符号标识,让计算机具备了这个层次上的逻辑推理知识能力。《知网》的作者一再强调《知网》是“以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库”,但本文更多的将《知网》2000放在语义词典的层次上使用,故不对此作深入的讨论。

3 词语语义相似度的计算

什么是词语语义相似度?DekangLin[2]认为任何两个事物的相似度取决于他们的共性(Common-ality)和个性(Differentces),然后从信息理论的角度给出任意两个事物相似度的通用公式:

其中分子是描述a,B共性所需要的信息量的大小;分母是完整的描述出a,B所需要的信息量大小。

刘群、李素建[4]认为两个词语的相似度是它们在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性大小。在下文中(第4部分和第5部分)我们分别借鉴了前者的事物信息量的概念;后者的整体相似度由部分相似度合成的思想。

词语存在着一词多义的现象,知网中的一词多义表现为单个词语有多个概念,每个概念由一项定义来描述。比如:“打”在“打架”,“打太极”,“打猎”中的意义各不相同,知网中对应的概念描述分别是:

DeF=fight|争斗

DeF=exercise|锻炼,sport|体育

DeF=catch|捉住,#animal|兽

词语语义相似度的计算,严格来讲,应该是计算概念之间的语义相似度。本文中采用刘群[4]的思路,认为两个孤立词语(不处在一定的上下文背景中)的语义相似度是其所有概念之间相似度的最大值。

Sim(w1,w2)=maxSim(C1i,C2j)

i=1…n,j=1…m

(1)

其中,C1i是词w1,的n项概念(词义),C2j是w2的m项概念。

4 概念相似度的计算

我们先假定得到了任意两个义原之间的相似度(第5部分介绍),现在讨论如何利用义原之问的相似度合成两个概念的相似度。假定描述两个概念的义原集合是:

C1={S11,S12,…,S1n},C2={S21,S22,…,S2m}

问题即为如何由集合中元素的相似度得到整体的相似度。一种比较直观的方法是先寻找最优匹配,集合中彼此最相似的元素两两组合,然后加权取均值就是整体的相似度。每组义原之间的相似度在整体相似度中的权值大小,我们遵循以下两个观点:

一、每个义原在定义概念中的作用大小不同。一个义原所携带的语义信息越丰富,对概念的描述就越具决定性作用(即越能区分此概念同其他概念),相应的其在概念相似度计算中的比重就越大。怎样判定一个义原携带的语义信息丰富与否?我们认为一个义原所代表的语义内涵越具体,其语义信息就越丰富。反映在义原层次树上,层次越深/越靠近叶子的节点,该义原语义信息越丰富。由此得到计算公式(假定m≤n):

pi是一组元素配对――最大匹配取得,φ表示和空元素对应,ωi是这组元素的相似度在整体相似度中的权值,di是两个义原在义原层次树中深度的较小值,根节点层次设为1。若义原和空元素对应,则Sirs(pi)取一较小的值γ(参数)。

二、我们认为在概念的定义中不带符号的义原是对概念的一种直接描述,表明一种isa的定义关系或者是识别该概念必不可少的特征(属性);带有符号标识的义原是对概念的一种间接描述,表明概念的一些其他属性。两者对概念的描述作用大小不同,应该分成两组集合分别计算,然后再加权求均值。同时,前者的权值应该更大。公式(2)变为:

Sim(C1,C2)

=β×Sim(C11,C21)+(1-β)×Sim(C12,C22)(3)

Ci1是Ci中不带符号义原的集合,Ci2是Ci中带符号义原的集合,β为调节参数。

此外,在概念的定义中,有时候会出现不用义原而直接使用其他词语来描述的情况――出现在一个括号内。比如,“佛教徒”:

DeF=human|人,religion|宗教,(Buddhism佛教)

“盟军”:

DeF=arm|军队,#country|国家,*ally|结盟,mili-

tary|军,desired|良,#(wwⅡ|二战)

我们统一规定此时词语和词语若相同,则相似度为1,否则相似度为0;词语和义原之间的相似度则统一取较小值η。词语的“层次深度”统一设为一个较小值h(参数)。

在实际的计算中,带符号的义原之间分组应该是带有相同符号的义原配对,如果仍旧使用最大匹配,相似度的计算成为一种相关度的计算。比如“医生”:

DeF=human|人,#occupation|职位,*cure|医治,

medical|医

“患者”:

DeF=human|人,*SufferFrom|罹患,$cure|医治

采用最大匹配:

{(human|人,human|人>,,

null>}(其中的null表示φ)

采用一一对应:

{,,,,}

前者的值比后者大,因为“医生”和“患者”十分相关,却不能说很相似。

5 义原相似度的计算

义原相似度的计算依据义原的层次体系(上下位关系)来计算,这种基于树状层次结构计算语义相似度的研究已经十分成熟。Resnik's[1]、DekangLin[2]、刘群[4]等都提出了自己的公式,BUDan-itSKY[5]对基于wordnet的几种计算方法进行了比较。我们认为他们的方法可以分为两大类:一种是基于两个节点之间的路径长度,一种是基于两个节点所含的共有信息大小。本文分别采用了两种公式来计算义原相似度:

a.刘群的公式:

其中,S1,S2表示两个义原,distance(S1,S2)表示它们的路径长度,a是一个调节参数,表示相似度为0.5时的路径长度。

同时,我们参考吴健,吴朝晖,李莹[6]的计算词汇相似度的思路,引入节点的层次深度:

这样在路径距离相同的情况,层次越深的节点具有越高的相似度。

b.Lin的公式:

其中,S1,S2表示两个义原,Sp表示离他们最近的共同祖先,p(S)是该节点的子节点个数(包括自己)与树中的所有节点个数的比。

由于《知网》定义的所有义原并不是在一棵树上,而是构成森林。我们统一规定,不在同一颗树上的两个义原之间的相似度取一较小值δ(参数)。

如果两个义原之间存在对义或者反义关系(通过查表得到),我们将它们的相似度减低为原来的n分之一(参数),比如“大”,“中”,“小”在“属性值”这颗义原树上是兄弟节点,按上述公式计算,它们的相似度都很高,但我们认为实际的语言经验中是不会把“大”和“小”作为相似的语义概念来对待的。

6 实验结果与数据分析

6.1实验一

为了比较,我们选取刘群、李素建[4]论文中的一组实验词语(表3的上半部分)并加入几组典型词语(表3的下半部分)来说明两种方法的区别。实验中的参数设置见表2。

1.比较第4列和第5列。两者上半部分基本保持一致,无大的波动,下半部分有些数据变化较大,分为以下几类:

i.“珍宝”和“宝石”,“粉红”和“深红”。第4列它们相似度很低,而第5列相似度比较高。其原因在于第4列的计算方法倚重于第一个义原,比如“珍宝”、“宝石”的定义分别为:

DeF=treasure|珍宝,generic|统称

DeF=stone|土石,treasure|珍宝

第一义原为“珍宝”和“土石”,不具有很高的相似度。按刘群、李素建的方法,它们整体相似度不会很高。而我们的方法是将所有不带符号(独立义原)放在一起计算,并赋予适当的权值。这样“珍宝”和“珍宝”对应,“统称”和“土石”对应,且前一对的权重较大,因此得到整体较高的相似度。

ii.“美丽”和“丑陋”。第4列相似度较高,第5列较低。因为我们认为具有对义和反义关系的义原即便在义原树上相隔很近(这里是“美”和“丑”),也不能认为它们具有很高的相似度。类似的义原有“大”和“小”、“冷”和“热”等。

iii.“中国”和“美国”。第4列给出的相似度十分高,我们的相似度0.6多一些。《知网》中,“中国”和“美国”的定义分别为:

DeF=aValue|属性值,attachment|归属,#country|国

家,propername|专,(US|美国)

DeF=aValue|属性值,attachment|归属,#country|国

家,propername|专,(asia|亚洲)

据定义似乎应该具有十分高的相似度,它们的区别只有最后一项词语(具体词)描述,这部分相似度为0。(前文中规定:出现在知网描述中的两个词语若相同,则相似度为1;不同,则取0)。在我们的计算中,具体词对整体的相似度影响较大,“层次深度”设为5。因为我们认为知网描述中出现的具体词包含有较丰富、具体的语义信息,对其所描述词的性质具有直接的决定和影响。

2.比较第5列和第6列。后者的上半部分数据略微有些整体上移,下半部分数据中有两对词语相似度明显改善,“跑”和“跳”,“发明”和“创造”。考察它们的主要定义,都是由单一义原组成:

DeF=run|跑 DeF=jump|跳

DeF=produce| 制造DeF=create|创造

由于只有单一的义原描述,相似度完全等同于义原之间的相似度。我们认为具有单独描述能力的义原是包含较多语义信息的义原,应该提高它们的相似度,而公式(5)恰恰提高了具有深层次的节点(包含较多语义信息的节点)之间的相似度。

3.比较第6列和第7列,两者基本一致。但对于义原树中两个叶子节点而言,公式(6)会给出更高的相似度,比如“男人”和“女人”中的“男”和“女”,公式(5)是计算得到的相似度为0.545,公式(6)计算的相似度为0.819。我们认为前者更合理一些。因为用1600多个义原来描述所有的中文词语,从语义分布上而言,它们之间应该具有一定的间隔。公式(6)更加适合wordnet这种由大量词语构成的树状体系,节点与节点之间信息相对细微紧密。

4.虽然我们得到的结果总体来说和人的直观相似,但有些结果显然与实际经验不符。比如按照“男人”和“女人”、“男人”和“和尚”的相似度,我们可以认为“女人”和“和尚”也十分相似。又比如“青山”和“苍山”的相似度只有0.467,“香蕉”和“苹果”的相似度为1(它们的定义都是“fruit|水果”)。这种结果一方面是因为知网的描述在有些地方有待加强修改,进一步的深入细致;另一方面我们对知网的理解也有待进一步的深化。

6.2实验二

为了更加直观的观察我们方法的效果,我们特别计算了《同义词词林》[7]中同义词语对的相似度。《同义词词林》将汉语的常用词按词义的远近和相关性分成若干词群,每个词群被编排在同一行,我们选择表示同义词群(即去掉相关词群和独立词群)的行。每行选择前两个词进行计算,得到统计结果如下(表4):

1.“Hownet中可计算的词对”是指在《知网》中可查询的词语。有相当一部分《同义词词林》中的词语在《知网》中没有被收录,说明二者的编撰的确存在较大较别。而在可计算的词对中相似度为1(即《知网》释义完全相同的词组)占63.71%,又说明两者对词语的解释基本保持符合一致。

2.从表中我们可以看到相似度计算在0.7~1之间的词对占了相当一部分,说明我们的方法比较有效。但我们也看到在0.4~0.7之间的词对也有不少,我们认为除了《知网》本身有待进一步完善和补充外,通过义原的相似度(相对稀疏的层次结构)来反映大量词语之间的相似度(相对密集)的方法本身是否存在一定的上限是一个需要进一步深入研究的地方。

7实验结论

《知网》含有丰富的语义信息和世界知识,理解其构建的哲学思想和义原体系,充分利用其特定的描述方式是使用《知网》的关键。

本文在参考刘群、李素建[4]的基础上,提出了自己的观点:首先认为义原携带的语义信息有大小之分,越是处于底层的节点语义信息越丰富;其次认为义原对概念定义作用的大小正是取决于其本身所携带的语义信息;最后,我们将义原对概念的描述分为直接描述和间接描述,并认为直接描述是区分概念必不可少的语义信息,间接描述是区分概念的补充信息和世界知识。根据这三个基本观点,我们得到了自己的计算公式。最后在实验中和刘群、李素建[4]的结果作了比较,并详细分析了两者差别的地方;同时通过计算《同义词词林》中若干同词义的相似度验证了我们的方法。

在下一步的工作中,我们将改用《知网》2005的免费版来进行研究,进一步探讨研究知网义原构建体系的特殊性以及如何利用这种特殊性得到更加合理的计算方法。

收稿日期:2006-06-03 定稿日期:2006-12-13

作者简介:李峰(1983-),男,硕士,主要研究方向为自然语言处理。

参考文献:

[1]enekoagirre,GermanRigau.aproposalforwordSenseDisambiguationusingConceptualDistance[a].in:proceedingsoftheFirstinternationalConferenceonRecentadvancedinnLp[C].1995.

[2]DekangLin.aninformation-theoreticDefinitionofSimilaritySemanticdistanceinwordnet[a].in:proceedingsoftheFifteenthinternationalConferenceonmachineLearning[C].1998.

[3]Hownet[R].Hownet'sHomepage.keenage.tom.

[4]刘群,李素建.基于《知网》的词汇语义相似度的计算[a].第三届汉语词汇语义学研讨会[c],台北,2002.

[5]BUDanitSKY,a.anDHiRSt,G.Semanticdi-tanceinwordnet:anexperimental,application-orien-tedevaluationoffivemeasures[a].in:workshoponwordnetandotherLexicalResources,Secondmeet-ingofthenorthamericanChapteroftheassociationforComputationalLinguistics[C].2001.

地理信息概述篇7

applicationanalysisofHallidayRhemetheoryin

Vocationaltranslationpracticeteaching

CaiYongfeng

(Hu'nanVocationalCollegeofCommerce,Changsha,Hu'nan410000)

abstractHallidaythematictheoryformorecontributionshasaverybroadimpact,theintroductionofthematictheoryonthefeasibilityanalysis,basedonthetranslationofappliedvocationaltrainingteaching,translationchapterstructurewillbenefitanalysis,understandingcommunicativemeaningofthetextpassed,andtherealizationofthesourceandtargetlanguagestructureandcontentofthefunction,soastoeffectivelyimprovetranslationefficiencyofteachingandlearning.

Keywordsthematictheory;vocationaltranslationpractice;theoryapplication

1课堂上引入主述位概念的可行性

多年来,随着翻译学科的发展,基于文化视角的翻译理论不胜枚举,如后殖民理论、解构理论、女性主义理论等,为翻译的研究学习提供了新鲜的视角。遗憾的是,此类理论对做实用翻译尤其是适合高职学生的翻译实训学习并没有直接的指导意义。因此,为高职翻译教与学寻求恰当的理论指导成为广大教育工作者的当务之急。韩礼德主述位理论,作为一种实用型语言结构的分析方法,且对于各类语言基础的翻译学习者而言易于接受,逐渐成为翻译语篇分析的有力工具,在应用翻译学习中逐步盛行起来。本文试图在高职翻译实训教学中引入主述位理论,从而提取对高职学生行之有效的翻译策略,研究主述位翻译方法的传授与阐释,以期提高高职翻译实训的教学效能。

2对主述位概念和分类的课堂诠释过程

在高职翻译的实训课堂上,向学生介绍主述位概念和分类,目的是在于培养学生良好的语言运用习惯,而不是让学生进行机械概念记忆。下面是笔者在课堂上对韩礼德主述位概念的释义概要:从语义角度在对句子进行切分时,信息的起点部分为主位,是句中所关心的成分;述位是句中除主位之外的成分,它提供关于主位的新信息(韩礼德:1994)(下文中t为主位,R为述位。)

例如:(1)人力资源部(t)/为本程序的执行部门(R)。(2)onoctober9,(t)/theanniversarypartywillbeheldinthehall.(R)

从例句可知,因信息起点功能特征,主位通常在句首,但句首仅是其实现位置,而非其实质定义;数位为紧随其后的信息,即起点信息后的新信息。

同时,根据主述位的结构表现形式,韩礼德将主述位划分为单项、复项和句项述位。(此类讲解因限于篇幅,暂不做赘述。)

跟踪当堂实训教学效果,绝大部分学生们表示易于理解和接受上述内容。但教师须注意提醒学生注意与易混淆的主谓语结构区分,以及句中主述位次序的差别。

3课堂上阐释主述位翻译理论的策略与方法

3.1引入新概念―翻译单位,开拓学生思路

传统的翻译课堂中,概念单位通常为句子,教师先要学生模仿现成例句,准备一段时间来做翻译练习,而从学生相应的理解情况来看,对原语和目的语只是从单词到句子零散地翻译。为避免这种情况,笔者采取学生在没有准备的情况下首先要求学生翻译例句:“prequalifiedrenderermaybegainaseriesoftenderdocumentsforRmB6000yuanonthesubmissionofawrittenapplication.”通常情况下,学生的答案会出现五花八门的现象,大体上可归纳为如下三种译文形式:译文一:合格的投标人要获得一整套投标文件须在交纳人民币6000元,并呈交以上所要求的文件。译文二:合格投标人要获得一整套投标文件须在呈交以上书面申请后,并交纳人民币6000元。译文三:整套招标文件可由具有资格的投标者提交书面申请,并交纳人民币6000元后获得。

显然在三种译文中,最佳翻译为译文三。“在呈交以上书面中请并交纳人民币6000元”为原文的复项述位,而在译文一、二中则被转换为句项述位结构。因此可以看出,将获得标书的资格以及资金条件放于句尾强调,是有悖于招标文书的公平原则的;相比而言,译文三中将“整套招标文件”转至主位,更符合原文发展的逻辑,实现译文文本与英文文本的功能对等。因此,翻译练习引入翻译单位-韩礼德理论下的主位述位,使源语言和目标语言更具结构分析和建构功能,从而使译者易于准确理解与掌握译前分析准备。所以,把主位述位作为翻译单位是一种便于学生理解的学习方式,让学生增强对翻译学习的信心,对拓宽学生的思路和视野有直接益处。

3.2鼓励转换思维,提高信息和句式调整意识

根据主述位理论,作为辨别主述位主要依据的句中信息,对于划分句子结构起着举足轻重的作用。一般而言,零位信息和已知信息表现为多数英语句子中的主位,相比而言,新信息则为句子的述位,经常置于句中谓语动词及后面部分。又如:“thepretenderConferencewillbeheldon8Juneattheaddress...

同样,对于该句翻译学生也出现不尽相同的译文答案,基本上可归纳为以下两类:译文一:六月八日,标前会议将在某地召开。译文二:标前会议将于六月八日在某地召开。

比较而言,译文二比译文一效果要好:译文二中的“标前会议”,体现为小句主位,与前面各小句主位关联紧密、清晰;而译文一中“六月八日”为小句主位,和前面其它小句主位并任何关联;译文二的目标文本在语篇方面与原文本保持一致,且继续保持了原文本的主位脉络,句式结构紧凑。一般情况下,英语本族语者通过已知信息中选取主位,而通过句末信息选取述位。但是,由于跨文化差距,仅按此方式翻译就不符合汉语的表达习惯,因此,为了让学生更好地了解到英语对新旧信息分布的意识以及和中文句式的差别,在翻译中引导学生进行相应思维转换,提高信息和句式的调整运用能力。

3.3培养篇章结构策略,增强文本翻译能力

篇章翻译是将已知文本语言转换到目的语文本的过程,既是指文字的转换,也是指结构和内容的传递。在高职翻译实训的练习过程中,教师首先引导学生注意目标语言应在风格、信息和内涵方面与原文保持致,以符合目标语的格式和体裁为准。然后,引入适合的翻译方法,采用直译加调整的策略,进而加以归纳。具体应用到工程翻译之招标文书的翻译实训实例,体现为如下分析步骤:划分源文本主述位分析主述位推进模式(t-R模式)识别源文本信息链理清篇章脉络句子翻译篇章翻译。值得注意的是教师可提倡学生用该理论来检测目标译文,检验目标文本是否符合原文本结构和逻辑,是否最大限度地从形式和内容上实现功能对等。

4结语

地理信息概述篇8

[关键词]本体知识检索智能检索知识库

[分类号]G250.6

1 引 言

从本体论的基本概念出发,哲学上把本体论定义为“对世界上客观事物所进行的系统描述”。将本体论引入信息科学,本体论是对概念化对象的一种表示和描述,在计算机领域是指定义元数据及其相关关系的“规范”。由于本体具有良好的概念层次结构和逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。知识检索也称语义检索,是把信息检索与人工智能技术、自然语言技术相结合的检索,它从语义理解的角度分析信息对象与检索者的检索请求,是一种基于概念及其相关关系的检索匹配机制。知识库是事实、规则和概念的集合,从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。张謇是中国近代著名实业家、教育家,他是清末最后一位状元,曾任民国政府实业总长,是一位探索强国之路的开路先锋。他倡导实业救国的思想,在经济、教育、文化、城市建设、社会保障、地方自治等诸多领域创造了十多项全国第一,他创建了中国近代第一城――南通(中国人自主规划建设的第一座近代城市),研究张謇对于今天的城市经济、教育、文化协调发展,实现科学可持续发展具有重要意义。张謇研究知识库对张謇研究知识沉淀(包括南通大学档案馆、图书馆和博物馆的张謇研究原始资料)进行数字化语义处理并在张謇研究领域专家的指导下进行概念分类标注,组织到知识库中,形成张謇研究领域概念集,组织存储并实现web服务功能。

2 基于本体论的张謇研究领域知识库智能检索系统功能需求

・实现对世界各地张謇研究领域用户的查询请求分析本地表达化,使得要查询的概念不存在模糊不清的地方,具体表现在用户向系统提出查询请求后,系统能将查询请求中的本体取出来,然后进行基于本体的语义搜索。

・系统应能对用户如何更好地利用已建成的张謇研究本体知识库中的知识给予搜索提示,帮助用户更好地使用本体进行查询。

・系统应能找出查询本体中隐含的语义,实现智能检索,即系统能根据用户的检索条件,进行智能语义推理,可检索出与检索条件具有相同语义信息的知识。

3 基于本体论的领域知识库智能检索系统结构和工作流程

3.1 基于本体论的领域知识库智能检索系统结构

基于知识库的语义web环境下,知识库的信息资源已进行了语义标注。在此环境下,本系统应完成的任务是:自动抽取关于领域知识内容描述的元数据,并将这些元数据进行存储;对用户提交的关键词进行语义匹配和语义相关性扩展,形成符合特定ontology语言的查询语句,通过对数据库中存储的领域知识库元数据信息的查询,得到高效的基于语义的领域知识检索结果。上述任务可划分为元数据收集、数据预处理、元数据存储、基于ontology的知识推理和用户查询、控制调度等6个主要功能。本文将整个系统框架划分为6个部分,每个部分的功能由一类agent实现,这6类agent通过协同工作,共同完成整个检索任务。本系统的总体结构如图l所示:

系统中除了多个agent以外,还设置了领域知识库、领域本体库、本地信息库、远端信息在本地索引库以及临时文档库来存储相关信息。领域知识库除了存储张謇研究数字化语义web资源还存储张謇研究领域用户iD、mail等个人信息、搜索案例(用户iD)、搜索iD、属于的领域、关键字、返回的数据等、用户偏好等;领域本体库存储张謇研究领域集、张謇研究关键字集以及张謇研究本体的相关知识等;本地信息库和远端信息在本地的索引库主要存储远端搜索agent带回的,并经过信息处理agent处理过的搜索信息,临时文档库存储远端搜索agent从远端数据源搜索到的相关信息。

3.2 基于本体论的领域知识库智能检索系统工作流程

通过信息搜索agent,对张謇研究知识库中描述张謇研究领域知识内容的元数据(包括知识库存储的描述内容信息和带描述信息的页面weB信息)进行信息提取和过滤,把收集到的元数据经过预处理agent进行处理后交由存储agenh存储agent接收语义元数据,将这些元数据以合适的方式存储到数据库中,数据库既可以是传统的关系数据库,也可以是专用的XmL/RDF数据库,利用描述领域知识的领域本体,由推理agent对张謇研究用户提交的查询关键词进行语义匹配和语义相关性扩展,将得到的基于张謇研究领域本体的查询要求交由查询agent执行,由查询agent接受推理agent产生的针对ontology的查询要求,对存储元数据的数据库采用基于知识的方式进行查询,并将满足用户条件的结果返回给用户。领域用户的查询过程如下:①提交检索请求。界面agent接收用户提交的检索请求,主动细化检索请求,并把细化后的结果交给预处理agent。②规范化检索信息。预处理agent接收到检索请求任务后,首先利用任务中关注领域、关键词、摘要等信息,到所有用户共有的知识库中查找利用相同领域,类似关键词作为搜索条件的搜索案例。若在知识库中没有检索到所需案例,预处理交本体库,借助于本体知识,从中找出出现该关键字的各个领域以及在该领域下的关键字的含义。③预处理agent搜索到的或者是经过本体规范的信息提交给查询界面,界面与用户交互,把用户根据自己意图选择的信息再次反馈给预处理agent,预处理agent再把信息提交给查询agent。④为了保持系统的一致性与协调性,实现对知识库的智能管理、控制和调度,控制调度agent作为智能检索系统的“司令部”,将在系统中起核心作用。控制调度agent的工作过程是:保存各agent的名称、通信地址、能力等状态信息;接受检索任务,在多agent之间进行任务分配;协调整个系统的通信;接收检索结果,将其反馈给预处理agent;定期派遣信息收集agent到远端信息源上收集信息,更新本地信息库和远端信息在本地的索引库。

3.3 基于本体论的领域知识库智能检索系统功能实现

系统采用了语义web技术和智能agent技术,使用RDF模型对知识库的web页面元数据进行描述,然后利用ontol-ogy建模语言对领域知识进行建模,根据所得到的ontology对元数据进行基于语义的查询,为用户提供智能化的检索服务。

3.3.1 张謇研究领域知识收集系统中的信息收集agent的作用是从知识库中收集与web页面内容相关的元数据描述信息,

并把收集到的元数据交由存储agent。在目前的语义web技术中,页面内容的元数据描述信息通常可以采用RDF的形式进行描述。使用RDF来描述页面内容,最直接的方法就是把描述本web页内容的RDF数据段插入到页面之中,一般是把以XmL语法形式书写的RDF数据嵌入到HtmL的头部信息中,其实现形式类似于microsoft在Ⅲ中所用到的“数据岛”。除此之外,对于知识库和web页元数据的数据量较大的情况,RDF数据还可以用文件的形式保存,并在页面中给出存放此文件的链接,以供软件agent或应用程序读取。信息收集agent按照设定的搜索策略访问知识库以及语义万维网环境下的网页,它不仅可以自动过滤知识库网页内容,采取某种策略来提取其中的元数据描述信息,还可以从一个知识库页面跨越到另一个页面,自动沿着超文本的链接,遵循超文本传输协议在知识库页面上进行“爬行”,确认知识库页面之间的链接是否有效,删除已经名存实亡的链接。

3.3.2 张謇研究领域知识存储通过agent之间的通信,信息收集agent会将所得到的知识库web元数据传递给存储agent,而存储agent的任务就是对所接收的以RDF形式表示的元数据还原,然后把元数据以合适的方式进行存储。目前,RDF数据的存储基本上有3种方案:①XmL/RDF文件形式,②RDF数据库,③关系数据库。对于少量的数据,XmL/RDF文件形式的存储是可行的,但是对于大量的事实数据,考虑到可扩展性、查询方式、效率等诸多因素,以RDF数据库或者关系数据库来存储RDF事实数据是一种比较好的选择。关系数据库是目前数据库应用的主流,用关系数据库存储RDF数据,可以有效地利用现有的数据库资源。但是由于关系数据库缺乏所必须的语义要求,所以必须首先把RDF的数据模型转化为关系模型,这就要求能够对RDF数据进行解析,根据RDF模型的特点设计专门的数据库模式,实现从RDF模型到数据库模式的映射。在RDF模型中,声明是对一个事实的基本描述,也是RDF模型中的最小有效数据单元,所以存储声明的表是数据库模式中最重要的部分,其结构如表1所示:

由于RDF是一种以XmL语法为基础的建模语言,所以从某种意义上可以说RDF数据是一种特殊的XmL数据。实际上,XmL文档可以分成两大类:以数据为中心或者以文档为中心。以数据为中心的文档有非常规则的结构,以文档为中心的文档具有不规则的结构,而且数据颗粒度也比较大。根据RDF数据模型的特点,RDF数据可以看作以数据为中心的XmL文档。基于RDF数据模型的特点,对于RDF数据的存储最好由中间件(middleware)来实现。中间件所需完成的XmL文档与数据库之间的转换功能是通过文档与数据库之间的映射来实现的,实现过程共分为3步:编写一个映射文件、编写过滤器和动作文件、编写Java代码。

3.3.3 张謇研究领域知识推理 实现基于语义的检索,不仅要有被检索信息的元数据信息,也要具有对被检索内容的智能推理能力。系统中推理agent的核心是智能推理引擎,它能够根据已有的特定领域的本体对用户所输入的关键词进行基于语义的智能推理。推理包括语义匹配和语义相关性扩展,推理引擎应能够根据领域本体中对各个概念的定义而推理出这个关键词在查询中的精确语义,并推理出与此词语义相关的词语和概念。推理agent通过调用Jena中的ontologyapi,根据ontology对用户输入的关键词进行基于语义的推理。推理分为两种:关键词的语义匹配和相关性扩展。语义匹配的作用是对用户所输入的关键词进行语义的分析,推理agem根据ontology可以判断此关键词的精确语义,从多个可能的语义选项中选择出最符合用户要求的那一种。针对具有一词多义的词条,语义匹配提高了检索结果的精确性。传统的收集引擎只是根据单纯的关键词匹配来检索结果,并不能区分同一词条的不同含义,而在本文所提出的检索框架中,ontology对同一个词的几个不同语义都进行了精确的定义,每一个语义都对应于一个独一无二的URi,因此如果推理agent参考了ontology,就可以根据上下文来选择出符合用户要求的语义。相关性扩展的作用在于获得与该词相关的其他词,因为在ontology中定义了众多的与此词条相关的其它概念,所以根据ontology中所定义的知识,还可以获取更多的与此关键词语义关联的词,例如,通过subclass关系,推理agent就能够找到该概念的一个子概念,尽管该子概念不在关键词列表中,推理agent根据ontology也会把它找到并返回给用户。推理agentl后会将语义匹配和相关性扩展所得到的结果封装起来aCLmessage对象的形式交给查询agent,由查询agent根据这些推理结果对存储有描述知识库web数据内容的RDF数据库进行查询。

3.3.4 张謇研究领域知识查询查询agent的任务是通过与推理agent的通信,接受推理agent针对用户的检索要求进行语义推理的结果,然后通过对存储网页元数据的RDF数据库的查询,检索出符合用户语义要求的查询结果,并将这些结果返回给用户。由于RDF数据模型的特点,对数据库中的RDF数据进行查询,最好使用一种专门的RDF查询语言。RDQL是Jena中的一种RDF查询语言,此类查询语言的特点是忽略Schema或ontology信息(除非在RDF数据源中明确说明),把RDF数据当作三元组数据进行处理。RDF数据模型是一个节点为资源或字符串的有向图,RDQL提供了一种通过图模式来匹配数据的方法,查询结果以一系列的bindings来表示,每一个bindings是一个包含变量值的“名称-值”对。RDQL查询表达式类似于SQL中的select子句,其视图模式就是一个RDFStatement,通过对Statement的某些部分的限定,就可以查询出Statement中未知的部分。RDQL查询语句与SQL语句类似,既可以单独使用,也可以镶嵌于Java代码中混合使用,本文中所设计的查询agent的查询动作中使用了RDQL语言,其查询语句被封装为Query对象,通过对Query对象的方法调用,可以查询出以ResultBinding变量的形式返回的结果,这些变量可以通过名字(在查询语句中定义)很方便地存取。在存储网页元数据的RDF数据库中,每一个模型就是一个web单元,查询出此模型之后,可以很容易地得到它的URL和title,查询agent把这些信息返回给用户,完成整个查询过程。

地理信息概述篇9

关键词:本体技术;知识划分;数字图书馆;分类法

中图分类号:G250文献标识码:B

文章编号:1004-373X(2008)24-109-04

applicationofontologytechnologiesinDigitalLibrary

QiUBaoyan,LVXianghui,QiaoHong

(Schoolofmanagementandeconomics,ShandongnormalUniversity,Ji′nan,250014,China)

abstract:Recently,researchontheapplicationofontologytechnologiesisquiteapopularresearchdirection,thisarticlediscussestherelevanceconceptofontologyandDigitallibrary,thepartition,classificationofknowledgesegmentsaredevelopedinthelightofontology,anddiscussestheimportantapplicationofontologyindigitallibraryanditsfunctionindetailthroughclassification,torevealtheimportanceofontologyindigitallibrary,therebyitisbeneficialtousersmakinguseofthelibraryresourceconvenientlyandrapidly,itimprovestheknowledgeinnovationandapplication.

Keywords:ontologytechnology;knowledgepartition;digitallibrary;classification

1引言

目前社会各领域信息的飞速膨胀阻碍了各领域用户对信息的查找、访问及维护,面对信息资源日新月异的增长,如何有效组织复杂的海量信息,提供高效便捷的信息服务,成为数字图书馆界迫切需要解决的难题。本体自20世纪90年代初提出以来,在知识表达、智能推理、信息共享、知识工程及其相关的领域得到了广泛的应用。本体技术依赖其对于概念体系在语义和知识层次上的有效组织,在数字图书馆中得到了广泛的应用,提供了公共的理解问题的基础。

2关于本体

本体最早是哲学上的一个概念,近年来被引入人工智能和其他计算机科学领域,如数据库设计、电子商务和知识管理等。最早的本体定义是1991年neches等提出的:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。

1993年,Grube将本体定义为概念模型的明确的规范说明。后来,Studer在进行了深入研究后,将其定义为“共享概念模型的明确的形式化规范说明”[1],其中概念模型,是指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确,是指所使用的概念及概念的约束都是有明确定义的;形式化,是指本体能被计算机处理;共享,是指本体中体现的是共同认可的知识,反映的是相关领域公认的概念集。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确说明。

虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们的认识是一致的,都把本体当作某个领域内不同主体(人、、机器等)之间进行交流(对话、互操作、共享等)的语义基础。其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识和描述语言,是一个已经得到公认的形式化的知识表示体系,包含词表(或名称表/术语表),词表中的术语全是与某一专业领域相关的,而逻辑声明全部用来描述术语的含义及关系[2]。

2.1本体的作用

(1)本体为人和主体之间的沟通和交流提供了共享的基础,也方便了不同领域的系统开发人员和研究人员之间的沟通,它是人机在语义上交互的最好的基础。

(2)本体支持对于知识的重用。本体提供了独立于应用的描述方法使之可在不同系统间重用。例如在基于构件的软件开发过程中,开发知识系统时知识工程师可以将本体论概念引入知识工程,详细说明模型中的概念、实例、关系和公理等实体,并以此建立领域本体。然后针对属性提出本体建模概念化分析的形式化方法,解决知识共享中的问题。此举有效地提高了工作效率,促进了来自不同领域的研究人员和组织间的交流。

(3)本体提供了一种结构化的表示领域知识的形式化方法。在本体中,明确说明了领域概念及概念之间的关系,并且支持对领域规则的描述,是领域知识的形式化表示。

(4)知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知。

2.2本体的分类

2.2.1按照领域依赖程度分类

(1)顶层(top-level)本体:其描述最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。

(2)领域(domain)本体:描述的是特定领域(医学、地理等)中的概念及概念之间的关系。

(3)任务(task)本体:描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。

在这个分类当中,领域本体和任务本体处于同一个研发层次,它们都能应用顶层本体中定义的词汇来描述自己的词汇。应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。

2.2.2按照细化程度分类

Guarino从2种不同的维度对本体进行划分。除了依据对领域的依赖程度分类,还提出了以详细程度分类。详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。参考(reference)本体:详细程度高;共享(shareable)本体:详细程度低。

2.2.3按照形式化程度分类

(1)高度非形式化:用自然语言松散表示;

(2)结构非形式化:用限制的结构化的自然语言表示;

(3)半形式化:用半形式化(人工定义的)语言表示;

(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。

2.2.4按照是否具备推理功能分类

(1)轻量级本体(Lightweightontology):轻量级本体不具备逻辑推理功能,例如叙词表和wordnet。

(2)中级本体(middleontology):中级本体逻辑推理功能简单,系统可以识别一阶谓词逻辑的表达式。

(3)重量级本体(Heavyweightontology):重量级本体具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,如Cyc本体系统。

除了上述几种分类方法外,1999年,perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语一言本体、任务本体、领域一任务本体、方法本体和应用本体。这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。

2.3本体构建原则

(1)清晰性:本体应该用自然语言对所定义术语给出明确的、客观的语义定义;

(2)完全性:所给出的定义是完整的,完全能表达所描述术语的含义;

(3)一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾;

(4)可扩展性:即向本体群中添加通用或专用的术语时,不需要修改其已有的内容;

(5)本体约束最小:对待建模对象给出的约束应该尽可能少,只要能够满足特定的知识共享需求即可;

(6)编码偏好程度最小:概念的描述不应该依赖于某一种特殊的符号层的表示方法[3]。

2.4本体构建方法论

mikeUshold&michealGruninger的骨架法(Skeletalmethodology)在企业本体基础之上,是相关商业企业间术语和定义的集合,该方法只提供本体开发的指导方针。该框架包括以下组成部分:

2.4.1框架组成部分

(1)确定本体的目的和使用范围;

(2)构造本体。具体包括3步:本体捕获:即确定关键的概念和关系,给出精确定义,并确定其他相关的术语;本体编码:选择合适的表示语言表达概念和术语;已有本体的集成:对已有本体的重用和修改;

(3)评估:根据需求描述、能力问题等对本体以及软件环境、相关文档进行评价;

(4)文档记录。m.Gruninger&m.S.Fox在进行toVe本体的研究和开发时,总结了设计和评估本体的方法学,包括背景和需求描述、非形式化的能力问题描述、词汇和术语确定、形式化的能力问题描述、用一阶谓词逻辑进行规范描述、调整解决方案,使本体趋于完备。

2.4.2领域本体构建方法

natalyaF.noy和DeborahL.mcGuinness提出了被称为“七步法”的领域本体构建方法。即:

(1)确定本体的专业领域和范畴;

(2)复用现有的本体;

(3)列出本体中的重要术语;

(4)定义类和类的等级体系;

(5)定义类的属性;

(6)定义属性的分面;

(7)创建实例。

以上几种方法各有自己的优势和不足,虽然都允许系统之间的互操作,并可进行知识的共享与重用,但与ieee标准相比,还没有一种方法体系是完全成熟的。

3数字图书馆

数字图书馆是社会信息基础结构中信息资源管理、存储和传输的基本组织形式,拥有丰富的超容量多媒体介质的数字化信息资源,依托网络为信息需求者提供快捷高效的数字化信息服务[4]。发展基于知识的数字图书馆的必要性在于:

(1)数字图书馆资源的知识化组织,不仅是一些简单元数据的表示,也是对所反映内容的有效组织,这需要建立广泛的基础性和领域性本体,并能不断学习与进化。

(2)不同的人对知识的理解与应用不同,网络怎样认知人的知识需求,并在合适的时间给人合适的知识,这是基于知识的数字图书馆的发展目标[5]。但各类信息常在具体系统条件限制下用专门语言定义组织为内部结构和格式,难以有效进行机器支持的检索、解析、处理和交换,更不要说进行跨文献单元、数据类型、数据层次和系统范围的信息挖掘、抽取、综合分析描述、转换了。

目前,国内学术界对数字图书馆知识管理的研究尚未全面展开,现有的研究成果多限于内部信息资源知识化的管理,在实践应用研究方面,还缺乏系统的理论、成熟的模型以及完整的评估体系。而把本体应用于数字图书馆知识管理,极大地解决了语义知识缺乏的问题,并使其具有智能推理和自学习能力,为XmL与RDF等技术提供语义支持。

另外,尽管在知识工程界主要把本体作为信息组织的工具,目前本体研究和实践也大多运用于人工智能中的知识表达,例如语义网络和框架,但由于本体开发的努力已经集中于基于形式逻辑和基于web的知识表示中,这也使得本体在数字图书馆中能够得到广泛的应用[6]。

4本体在数字图书馆中的应用

4.1在数字图书馆信息资源整合中的应用

本体由于其在众多纷繁复杂的信息资源中具备明确、规范、可共享、包含语义信息等优势,快速、有效地整合各种信息资源,所以在数字图书馆中发挥重要作用,主要包括:

(1)灵活处理各类信息资源[7]。例如,可以方便添加各种类、属性,如填加联系方式类型等,并严格定义其与现有信息资源的关系;可以动态增加类的属性,并随时反应到系统中,然后通过在程序中调用本体,得到领域的最新知识,并动态地反映到应用系统中,而不用程序员修改程序。

(2)有效识别信息资源的类型。因为对每个概念(如name,time,place等)都有明确、客观的描述,所以调用本体可以识别哪些是描述内容的信息,如属性…_name,…_keyword,…_abstract,…_description等;识别哪些是描述时间的信息,如属性…_time,…_date,…_year等;识别哪些是描述地点的信息,如属性…_address,…_place,…_country等。

(3)信息资源的内容对应用程序透明。基于本体的系统在应用程序部分将和领域无关,因为领域知识全部存放在本体中,这样,对系统来说,领域中的各种信息资源在外在形式上是存在很多共性的,只是具体内容不同,就更容易将其整合到一起进行处理。

(4)提供资源库领域知识的规范描述。

(5)提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分。

(6)提供智能与信息环境之间基于语义的理解机制。

(7)作为跨平台、跨系统之间的通信中介。

4.2在数字图书馆知识地图中的应用

知识地图这个概念最早由布鲁克斯(B.C.Brooks)提出,它是知识管理的有效方式和手段,用来描述组织流程中的知识,以图表的方式将业务流程中的知识流展现出来,包括知识的收集、存储和共享。知识地图是可以帮助人们明确在哪里能够找到知识的工具,利用知识地图将流程中的关键知识整合进来,可以达到提高工作效率的作用。

知识地图在数字图书馆知识管理系统中可发挥如下作用:知识的分类、存储、表示、导航以及隐性知识显性化等。而在系统中,知识的分类、导航可充分利用本体的复杂结构进行合理、细致的分类及准确、快速的导航定位。原因在于:

首先,本体的基础概念模型本身就是一张很好的知识地图。因此,构建领域本体的过程也绘制出了领域的知识地图。而且,本体构建结果中的各种类的层次图可以作为领域知识地图的一部分。例如人员类及其子类,就很好地展示了数字图书馆相关人员的情况,即有关数字图书馆人员的知识。

其次各种本体工具中的图形自动生成功能可用于知识地图的显示。在基于本体的知识管理系统中,可根据需要,动态生成各种知识地图。

比如,中国学术期刊网目前提供了以图形方式显示所输入检索词的相似词。用户可以根据这幅图更准确地了解检索词,因此这幅图对用户明确检索需求、修改检索条件等无疑会起到很大作用。遗憾的是,目前中国学术期刊只能提供星状的幅射图形,不能提供更加复杂、细致的结构图。可是,如果系统是基于本体的,就完全可以提供反映领域常识的、有层次、结构复杂的图形。

4.3在知识服务中的应用

知识服务,即以信息知识的搜寻、组织、分析的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程之中,提供能有效支持知识应用和知识创新的服务。

目前,数字图书馆知识服务需要一个新型的技术基础,支持数据挖掘、知识发现、知识析取、知识应用和智能化服务(智能web服务)[8]。无疑,本体技术仰仗其丰富的语义和广泛的关系,是实现以上目标的最佳手段,将本体建设和相应的引擎设计相结合即可解决问题。

用DamL-S在服务模型基础上定义流程模型本体,综合人工智能规划和工作流程研究成果,定义web服务中的流程类型和流程控制等信息,可以较好地表示web服务自动集成中的流程分类、合成、控制和时间约束等细节。

5结语

数字图书馆的出现,将是图书馆发展史上的一个里程碑,它帮助人们最快地获取所需要的知识,并为思路的展开创造了更多的机会。而本体的应用可以改善目前数字图书馆的一些不足,使之朝着基于知识的方向发展,最终能够提供知识服务。另外,除了上述文中提到的应用以外,本体还可通过语义对网页与文字进行提取与标引[9-11],通过聚类对信息资源进行主题分类、站点导航等,这些无疑都更加丰富了数字图书馆的应用。

参考文献

[1]StuderR,BenjaminsVR,FenselD.Knowledgeengineering:principlesandmethods[J].DataandKnowledgeengineering,1998(25):161-197.

[2]Uscholdm,Gruningerm.ontologies:principles,methodsandapplications[J].theKnowledgeengineeringReview,1996,11(2):93-155.

[3]Grubert.towardsprinciplesfortheDesignofontologiesUsedforKnowledgeSharing[J].internationalJournalofHuman-computerStudies,1995,43(5/6):907-928.

[4]邓凯,吴家春,王洪伟.本体论在知识图书馆中的应用初探[J].情报科学,2003,21(1):106-109.

[5]刘佳.ontology在基于知识的数字图书馆中的应用[J].情报资料工作,2006(3):55-59.

[6]陈文彬.ontology在图书服务网络中的应用[J].现代图书情报技术,2003(6):8-12.

[7]张哲.利用本体和主题词表的集成查询元数据[J].情报杂志,2004,23(4):16-18.

[8]楼向英.ontology:概念及其在数字图书馆中的应用[J].图书馆杂志,2002(11):45-47.

[9]刘娇蛟,龚丽,李建华.基于本体实现对网页文本的自动主题分类[J].计算机工程,2003,29(11):95-97.

[10]贺娇.基于术语本体的网页标引方法[J].情报杂志,2004(3):28-29.

[11]王泰森.一个基于本体论全文自动标引方案[J].情报科学,2003(9):950-952.

作者简介仇宝艳女,1983年出生,山东济南人,工学硕士。研究方向为本体与知识管理。

地理信息概述篇10

【关键词】语义网;数字图书馆;信息组织;信息检索

数字信息资源的海量增长导致了人类信息行为的改变。数字图书馆以其时空的便利性越来越收到人们的重视,人们更多地通过图书馆的信息检索系统来获得所需的资源。但数字图书馆传统的信息检索系统的缺陷也逐渐显现出来。

一、数字图书馆传统信息检索系统存在的问题

目前数字图书馆中搜索引擎多以传统的关键词检索为主。这种检索方式曾在一定程度上满足过用户的需求,但由于字义本身与其概念的延伸经常不在同一级,使得寻得结果往往仅与字面意义相匹配,与人们想得到信息概念及其相关的成分的意愿相违背。首先,传统的检索系统难以准确理解用户的检索需求。如当用户需要查找题名中包含“计算机”的文献时,其真实的检索意图是将关于“计算机”、“电脑”等具有同一语义的文献都查找出来。其次,检索系统返回的多篇文章往往只按相关度、实践、被引频次等进行排序,各篇文献之间相互独立,缺乏语义上的联系。

二、概念语义检索的优势

(一)语义检索系统可以收集用户的相关信息,分析用户的检索行为,了解用户的检索特征与检索爱好,创建符合用户特征的访问模式,从一定程度上提高用户的检索效率。

(二)对用户检索语义的确切理解保证了检索结果的可靠性。概念语义检索克服了字面匹配检索的弊端,使检索结果更接近用户真实的检索需求。

(三)用户可以对系统提供的服务做出信息反馈,对检索结果进行打分排序,系统可根据反馈信息调整服务,从而达到个性化搜索。

三、语义网及其体系结构

1998年,万维网之父timBerners-Lee提出“语义网”(Semanticweb)理念。语义网的基本思想是在网络信息的创作和中嵌入机器可理解的知识元数据,使计算机具备更强的“理解”和处理数据的能力。语义网环境下,网络成为能理解人类语言的智能网,人机交流变成类似人与人的交流。2000年timBerners-Lee提出的语义网标准体系结构。该机制的核心由两大模块组成:①以XmL与RDF(s)为手段的信息组织模块,用于管理信息,具备部分语义。②以ontology为手段的知识组织模块,用于管理知识,提供机器间的语义互操作。标准最底层由统一资源标识符(URi)和统一字符编码(Unicode)构成。语义网标准的第二层由可扩展标记语言(XmL)、域名系统(namespace)以及可扩展标记语言结构表(XmLSchema)构成。第三层由资源描述框架(RDF)和资源描述框架结构表(RDFSchema)构成。“XmL+RDF(s)”就构成了计算机间相互理解的基础,它们是改造万维网、建立起语义网信息组织机制的三大核心技术。第五层逻辑(Logic)是在本体层之上要做逻辑推理工作。接下来就是保证信息是可信赖的这两个层次,即论证(proof)和诚信(trust)。

根据以上内容可知,语义网信息组织机制的核心是XmL、RDF、ontology。XmL(可扩展标记语言)被誉为“语义标记”,是一种完全面向数据语义的置标语言。XmLSchema提供了规定XmL文档结构和内容约束的机制。namespace则是解决自定义标记过程中名称冲突问题的。RDF(资源描述框架)是网络资源通用描述框架,它是以三元组:主体—谓词—客体,来对网络信息资源进行简单描述的。RDF是一个开放的元数据集成方案。采用RDF来处理不同类型元数据集合,可以实现元数据之间的互操作,使计算机可以理解语义。XmL与RDF结合解决了信息建立于信息描述的开放机制和系统的开放性,有利于资源的共享。ontology(本体)在人工智能领域指的是对共享概念模型的明确的形式化规范说明。

四、概念语义检索的实现

(一)概念语义检索的原理。概念语义检索的原理主要分为三个过程:首先,用户向系统输入检索请求,由于用户的知识领域的差异,输入的关键词的准确性有差别,需要系统对检索需求进行语义分析,分析出用户真正的检索需求。第二,概念语义检索系统须对数字对象进行描述和表示,对海量的信息资源进行描述和表示是信息资源数字化整序的过程。第三,语义检索系统将分析出的用户真正的检索意图的认知表达式与概念语义检索系统中整合后的资源进行匹配,检索出所需的信息资源。

(二)概念语义检索的流程。(1)创建元数据:收集各学科的数字信息资源,在maRC、DC等元数据标准下,利用XmL、RDF等语义网技术,更准确地描述数字对象的语义,建立元数据并存储在元数据库中。(2)创建本体知识库:利用元数据库中的信息以及现有的主题词表、语义词典等工具,并且借助领域专家的知识和经验的帮助,构建领域内共同认可的词汇,并从不同层次的形式化模式上给出词汇和词汇间相互关系的明确定义。(3)语义标引:利用领域本体对文档进行标引。先从文档集中抽取出特征词汇,分析特征词汇,并建立与概念集之间的联系,从而达到使用领域本体对文档进行语义标引。(4)检索式的处理:用户通过检索界面提交查询请求,推理机利用本体领域内的知识和一些基本的自然语言理解技术对关键词或语句进行分析,从领域本体中抽取出与用户查询关键词或语句具有语义相似度的本体,最终得到用户真正的检索意图。(5)实施查询并返回结果:推理机将抽取出的语义关键词组成语句群,提交至检索系统。然后,系统从数字图书馆信息资源中搜索出符合该语义词或句的所有相关文献资源,即结果集。

作为下一代互联网,语义网在信息检索方面的优势可以为数字图书馆提高检索效率所借鉴。语义网的和核心技术XmL、RDF、ontology为数字图书馆实现用户检索需求的确切理解,构建信息资源的语义关联提供了有效途径,并最终提高了数字图书馆学术信息资源的检全率和检准率。

参考文献

[1]罗昊.语义网信息组织机制论纲[J].图书情报工作,2005(7).