首页范文大全地理信息数据获取方法十篇地理信息数据获取方法十篇

地理信息数据获取方法十篇

发布时间:2024-04-25 20:28:14

地理信息数据获取方法篇1

1.基于地图的方法

基于地图的方法是,利用已有GiS数据、纸质地图和CaD提供的二维平面数据以及其他高度辅助数据经济快速建立盒状模型。这种三维建模方法,我们要做的最重要的工作就是建立微地貌Dem和建筑物Dem,然后在GiS软件系统中合成为空间城市模型。

我国进行了几次大范围的地形图测图和土地利用详查,有精确的地形图和土地利用图。20世纪70年代,随着遥感和地理信息系统技术的引进,我国地理工作者利用这些地形数据和土地利用图,结合遥感技术,建立并更新了GiS基础数据库。在此基础上进一步构建城市Dem模型和实现三维影像显示,形成由CaD数据GiS矢量数据GiS栅格数据三维影像的一种城市三维建模的集成处理方法。

2.基于图像的方法

基于立体像对的方法是建立获取城市空间数据和建立立体模型的最基本的方法,也是目前最为常用的方法。它的发展与计算机技术、遥感技术相互交叉渗透,形成了现代摄影测量技术。目前数字摄影测量技术已经取得长足进步,并趋于成熟。摄影测量成为获取城市空间数据的有效手段,在各界科学工作者的努力下,已经实现自动、半自动获取城市空间信息,建立城市模型。

2.1航天航空立体像对

一般,从航天航空立体像对上获取城市空间数据的方法是先根据航片的原始资料和元数据对立体像对完成内定向、相对定向和绝对定向,然后计算得到Dem和Dom等产品。Dem可以提供建立三维模型的X,Y,Z数据。而由于航空影像是从城市的顶部方向照的,因此,Dom提供城市的顶部纹理。对于城市建筑物的侧面纹理一般有两种处理方法,对于大比例尺的模型,要建模人员到城市实地采集,再贴到建筑物的侧面;对于小比例尺的模型,由于要求的精度不是那么高,建模人员可以根据需要模拟建筑物的侧面纹理。

2.2近景摄影测量

近景摄影测量是摄影测量学的一个分支,它以摄影测量技术为基础,对城市进行摄影,根据相片上记录的信息,获取空间三维信息。一般摄影距离小于100m的摄影测量叫做近景摄影测量。在近景摄影测量中,为了提高测绘精度,通常采用交向摄影,需要对目标物体做不同角度和方向的摄影,以获得整个物体表面的立体覆盖。由于各立体模型之间有大的摄影重叠和立体覆盖,因此可以通过相对定向达到很高的内部精度。

2.3单张照片上提取信息

上面的两种方法都是基于摄影测量的基本原理。单张照片方法不同于上述两种方法,它是从单张照片上提取城市空间数据的。这种方法部分是基于透视的原理,提取物体的特征线进行三维重建,也有基于2.5维的深度图像的方法。目前这种方法还主要在小型物体的三维重建和一些历史古迹(有些历史古迹只有照片,而实物已经不存在了)的三维信息提取。这种方法的费用比较大,花费的人力也比较大,主要是技术上有一定的难度。但是,随着算法的完善、效率的提高,也可以成为一种令人期待的方法。

2.4基于三线阵CCD的数据获取

正如前文提到的,城市空间数据获取技术的发展离不开科学技术的发展。三线阵CCD相机就是近期应用的一种新型航空多光谱数字传感器系统。三线阵CCD相机可以从前方、正上方、后方不同角度扫描目标。我国的武汉大学进行了相关的研究。日本StarLabo公司、瑞士的CyberCityaG和瑞士测地与摄影测量学会的摄影测量小组的科学家合作建立的应用tLS为数据采集传感器的空中平台和城市建模软件,成功地对日本的横滨的两个城区建立了城市模型。

3.基于点群的方法

基于点群的方法,就是应用激光雷达和激光扫描仪快速获得的大量点群数据,这些点群数据就是相对系统坐标系的城市空间坐标。这是目前获取城市空间信息最快也是最精确的方法。

3.1基于机载三维成像仪数据获取

机载三维成像仪又称机载激光测距——扫描成像制图系统。它由GpS接收机、姿态测量装置(惯性导航系统inS)、扫描激光测距仪、扫描成像仪4个主要部分组成。GpS能得到三维成像仪在空中的精确三维位置,姿态测量装置能测出三维成像仪在空中的姿态参数,扫描激光测距仪可以得到机载三维成像仪到地面点的距离,扫描成像仪(线阵CCD或面阵CCD)获取地面的纹理数据。

3.2移动测绘系统数据获取

移动式测图系统的主要组成部分有:用于导航的GpS接收机,确定传感器姿态的惯性导航系统inS,激光测距仪,CCD相机和运载平台汽车。目前,移动测绘系统数据获取平台的研制是城市空间信息获取的研究前沿。移动测绘系统是一种高度集成化、自动化的数据获取方式,快速进入复杂街区扫描,避免人工长距离搬运精密复杂的测量仪器,并与定位导航系统配合成为最具有发展潜力的空间信息快速获取手段。它可用于自动车辆导航,建筑物的测绘,道路网的测绘,交通信号管理,监测车辆行驶速度和停车场的违规,高速公路路面测绘等。此外,由于移动测绘系统能在较短时间内重复测绘各类对像,因而可成为更新GiS空间数据库的重要手段。

3.3先进的三维激光测距技术

三维激光扫描仪的主要构造是一部快速准确的激光测距仪加上一组可导引雷射光以等角速度扫描的反射棱镜,同时接收自然物表面反射之信号进行测距,针对每一扫描点可测得测站至扫描点的斜距,配合扫描的水平与垂直方向角,可推求得每一扫描点与测站之三度空间相对坐标差。若测站之三维坐标为已知,则可求得每一扫描点的三维坐标。目前激光扫描速度可达数万点/s,三维激光影像扫描仪小型便捷、精确高效、安全、稳定、可操作性强,能在几分钟内对所感兴趣的区域建立详尽准确的三维立体影像(3Dimage)。基于激光扫描的数据获取技术作为最近迅速发展的一种新技术,可用于大规模场景三维空间信息获取,目前正引起广泛的关注。

4.混合集成方法

以上各种方法各有特点,但也各有局限性。不同的方式之间存在着互补性,因此利用混合手段集成多种方式获取城市空间信息成为人们研究的焦点。一是结合现有GiS数据库、规划建筑图纸和数字摄影测量进行城市空间数据获取的方法;二是集成航空影像、地面影像和地图等多种数据源的获取框架;三是建立了一个静态摄像机结合RtK2GpS的混合系统来测定空间坐标及获取纹理信息。

地理信息数据获取方法篇2

【关键词】信息处理流程;大学生;信息素养;教育

一、引言

现代社会是信息化的社会,信息化程度的高低已成为衡量一个国家的经济、社会发展水平的一个重要标志,信息与人们的生产、生活息息相关,信息的获取、评价和有效利用已经成为现代人的一种基本技能。信息素养作为衡量一个人综合素质的指标之一,已经受到社会广泛的重视,美国Denisee.agosto教授(2005)指出:信息素养是信息时代的基本技能。大学生是国家创新建设的重要力量,大学生的信息素养水平直接影响人才的素质,因此,提升大学生的信息素养水平也是高等教育重要的任务之一。通过检索信息素养相关资料表明,在我国,最早是在1995年,由金国庆提出了信息素养教育有关概念,随后,有关学者对信息素养和信息素养教育基本理论和方法进行了研究,近十年来,国内一些学者开始关注大学生的信息素养现状和存在的问题,如刘纪菲提出了如何加强高校学生的信息素养教育的问题,马费成等,对武汉地区大学生信息素养现状进行了调查和研究。当前,有关大学生的信息素养教育研究很多,但大多数研究都是从教学的角度探索如何开展大学生的信息素养教育,较少从信息的角度研究信息素养问题。本文将从信息角度出发,分析人与信息的关系,比较人与信息系统在信息处理方法、方式上的相似性,据此,从信息系统的角度重新认识信息素养,并以此探讨大学生的信息素养教育。

二、人与信息系统的关系

信息是一个抽象的概念,不是一个具体实物。美国信息管理专家霍顿(F.w.Horton)将信息定义为:信息是为了满足用户决策的需要而经过加工处理的数据。即信息是经过加工处理后具有一定含义的数据集合。具体地说,信息是一种已经被加工为特定形式的数据;数据是信息的载体,信息包含在数据中,数据是对客观事物及现象的符号表示,数据是可以存储在某一种媒体上可以鉴别的符号资料;数据的表现形式多样,可以是数字、文本、图形、声音等。由数据与信息的关系可以看出,个人在现实世界中所见到的事物,实际上是眼睛获取了现实世界事物的图像数据;人的耳朵听到的各种声音,也是获取了现实世界事物所发出的声波数据。人的感觉器官从现实世界获取图像、声音等数据传送到大脑,通过大脑对数据存储形成记忆,通过大脑思维对输入数据进行分析、判断、提取信息,形成决策信息或经验知识,最后,大脑再根据决策信息或经验知识,调动身体其他部位产生行动。而一个信息系统要表达现实世界,首先要建立数据模型,通过数据模型对现实世界进行描述,形成输入数据;随后,信息系统根据所应用的领域,采用相关算法,处理输入数据,提取信息,最终实现决策过程。通过上述对比可以看出,人的信息处理流程与信息系统的处理流程基本一致,二者区别仅在于:人能够主动获取信息,输入信息,而一般信息系统仅仅是被动地接受输入信息,处理信息。由此看出,人可以看作一个主动的信息系统,对信息的处理流程和处理方式与一般信息系统类似。

三、信息视角下的信息素养

信息素养来源于informationLiteracy,又译为信息素质,最早由美国国家图书馆和信息科学委员会Zurkowski,paulG于1974年提出,其表述为:“利用大量的信息工具及主要信息源使问题得到解决的技术和技能。”目前,普遍采用是1989年美国图书馆协会在总统委员会关于信息素养的报告中提出的定义:“信息素养是一种能力,要求个人能够意识到什么时候需要信息,并且能够获取、评价和有效利用所需的信息。”2000年,美国大学与图书馆研究协会,在《美国高等教育信息素养能力标准》中正式采用该定义。由上述定义知,具有一定信息素养的人首先要能够意识到什么时候需要信息,即能够根据实际问题提出信息需求,随后根据需求主动获取相关信息,接着对所获取的信息进行评价,最后根据信息分析评价结果,有效利用信息,指导自己的行动或实践。从信息的角度来看,信息素养其实是反映人的信息需求、信息获取、信息评价、信息利用整个流程的信息处理能力。但这种能力不是信息处理速度快慢,因为个人信息处理速度只是反映思维的敏捷性,类似信息系统的运算速度,因此,不能将信息素养所指的信息处理能力简单地理解为信息处理速度。信息素养所反映的信息处理能力应当重点体现在有效性上,即有效地获取、处理能力简单地理解为信息处理速度。信息素养所反映的信息处理能力应当重点体现在有效性上,即有效地获取、处理和利用信息的能力,其中有效性应该理解为所获取信息的可靠性以及经过个人的分析评价后信息的准确性、客观性。

四、大学生信息素养教育

既然信息素养是一种根据信息需求,有效获取、评价和利用信息的能力,那么信息素养教育就是提升个人信息获取、评价和有效性利用信息的过程。1.大学生信息素养教育问题当前针对大学生的信息素养教育,一般由大学图书馆承担,信息素养教育一直是图书馆面向读者开展的核心服务之一,无论是文献检索、信息获取,还是资源推广、技术普及,都构成了信息素养教育内容体系的一部分。黄蕾对20年来国内信息素养教育研究也印证了这样的事实:国内信息素养教育基本由图书馆来承担,而且很多学者也认可图书馆作为信息素养教育的主体。另外,还有些学者也比较了欧美等发达国家的大学生信息素养教育情况,也是图书馆担任信息素养教育工作。高校图书馆作为信息管理服务部门,拥有海量的信息,加上相应信息检索工具的使用教育,似乎也符合paul在1974提出“信息素养”要求,因此,高校图书馆承担大学生信息素养教育也符合实际。但是,如果仔细分析信息素养早期定义可以看出,图书馆的信息素养教育只解决了信息素养定义的前半句要求,即信息获取问题,而后半句“使问题得到解决的技术和技能”并非有了信息源就能自然解决问题,其实,获取信息后,还需要进一步正确分析和评价信息,最后有效利用信息才能解决问题,这是一种技术和技能。目前普遍采用的1989年的信息素养定义首先明确表示信息素养是一种综合能力,不是简单数据获取技能,因此,简单地将文献资料检索教育作为信息素养教育,从信息素养含义来看,这种信息素养教育是不全面的,或者说只能算作信息素养教育的基础教育,不是完整意义的信息素养教育。2.提升大学生信息素养教育措施高校图书馆教育可以提升大学生文献资料检索能力,从这一点来看,加强高校图书馆教育对提升大学生信息素养水平十分必要,但高校图书馆对大学生的信息素养教育仅仅是信息素养教育的一个环节。大学生信息素养教育需要与专业教育和社会实践以及科学思维教育相结合,才能有效提高大学生信息素养。当前,国内外有关学者提出嵌入式的信息素养教育,就是将图书馆信息获取教育与专业的信息分析、评价和应用教育相结合,从而解决大学生对信息本质的认识以及信息正确评价和有效利用问题,因此,有效提高大学生信息素养水平的教育应包括信息基本原理和理论的通识教育、专业信息素养教育以及科学思维方法教育3个方面的教育。(1)加强信息基础理论教育。现代信息技术发达,信息表达形式多样,从文字、数字到视频、声音、多媒体、虚拟现实等等,现实世界所出现的事物在信息世界都能够有效地表达,甚至可以毫无差别。如果大学生对信息的基本概念和基本理论认识不够,无法区分虚拟信息世界与现实世界的差别,以致出现很多学生在网络交友、交易、求职过程中被骗的事情。造成这样问题的主要原因就在于很多学生不知道网络上所见的信息世界是现实世界的一种数据表达,任何数据表达都存在准确性和客观性的问题。因此,相信网络上的信息内容等同于相信网络数据的正确性。我们知道,在引用一个数据之前,都需要核实数据的真实性和可靠性等等。对于信息的这些认识不是一门课程或几次培训就能完成,需要有一套完整的信息基本理论教育,加深大学生对信息本质的认识。深刻理解信息的本质是大学生所必须具备的基本信息素养。(2)加强专业信息素养教育。高校专业知识是某一个领域的知识,当前,信息技术已经渗透了各个专业。大学生通过图书馆可以获取大量专业信息,面对海量的专业信息,首先需要分析专业信息来源的可靠性,评价信息的有效性,随后进行合理专业技术处理,获取专业信息。这种专业的信息处理技术不仅涉及专业背景知识,还需要较高水平的专业信息素养,只有具备较高专业信息素养,才能完成专业信息的分析、评价和应用。因此,针对不同专业开展专业信息的分析、评价和处理技能教育,也是提升大学生信息素养水平重要手段之一。(3)加强科学思维方法教育。信息素养涉及信息分析、评价和有效利用,信息分析、评价不是简单的体力劳动过程,而是一个严密的思维过程,需要有科学的思维方法,客观的态度以及深厚的专业背景。从信息系统的角度看,科学的思维方法就类似信息系统的处理算法,只有算法正确,才能分析出正确的结果。因此,加强大学生科学思维方法的教育是提高大学生信息素养的又一个重要环节。

五、结论

大学生信息素养教育是一种复杂的、综合的能力教育过程,不是大学图书馆或一两门课程就能完成的教育任务。大学生信息素养教育要以信息素养标准中所包含的信息处理能力为基础,以提高信息获取、评价和有效利用信息的能力为目标,开展相应的教育工作,只有这样才能有效提高大学生信息素养水平。最后,需要指出的是,我国信息素养教育研究主要关注教育方法和手段的研究,缺乏适合我国高等教育特点的大学生信息素养教育体系和标准的研究,需要引起有关部门重视。

参考文献:

[1]Denisee,agosto.informationliteracy:e-ssentialskillsforthein-formationage[J].Johnwiley&Sons,inc,2005,56(9):1008–1009.

[2]刘纪菲.如何加强高校学生的信息素养教育[J].中国图书馆学报,2006,(4):105-106.

[3]马费成,丁韧,李卓卓.案例研究:武汉地区高校学生信息素养现状分析[J].图书情报知识,2009,(1):24-29.

[4]americanLibraryassociation.presidenti-alCommitteeoninfor-mationLiteracy.FinalReport[R].(Chicago:americanLibraryassoci-ation,1989.).

地理信息数据获取方法篇3

【英文摘要】this  paper  discusses  the  commonly-used  technologies  in  data  mining,and  explores&n……

【  正  文】

1 数据挖掘技术概述

随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data  mining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge  Discovery  in  Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。

2 数据挖掘的常用技术

机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。

1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。

2)人工神经元网络(ann),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。

3)决策树(Dt)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CaRt(回归决策树)方法。

4)遗传算法(Ga)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。

3 数据挖掘技术在用户知识获取中的应用

网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。

3.1 用户知识概述

用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。

3.2 用户知识获取方法

用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。

3.2.1 用户知识的关联分析 对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目a和B的顾客中有95%的人又购买了C和D”。这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排,进行有针对性的市场营销。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。

3.2.2 组合分析法 由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。

3.2.3 分类填表法 用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。

3.2.4 智能方法 现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。

利用智能(intelligent  agent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息(information  agent),信息将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。利用用户在浏览器上存储的书签(Bookmark)获得用户信息需求的方法属于“监视用户”类。在Bookmark中存储的信息往往是用户最关心的,需要记录下来以便以后再读。用户还可以对Bookmark进行多级目录管理,不同的目录反映其不同的兴趣。相对浏览历史记录而言,Bookmark对考查用户的信息需求更有价值。如果说浏览历史只是一种对上网情况的“自然”记录的话,那么Bookmark却是用户对历史记录进行比较、筛选后的结果,是用户眼中的网址精华,因而能更有效、更准确地反映用户的需求,而且它的组织性要比浏览历史好得多,更便于进行有效的分析。Bookmark系统采用Http协议实现信息的自动搜集。系统通过监测用户信息记录获得信息需求,信息分类器对搜索来的信息进行自动分类,装入信息数据库;信息过滤器根据用户提出的信息推荐请求,对数据库中的信息进行过滤并将合适的信息提交给用户;信息评价器根据用户对推荐信息作出的评价对系统进行优化。运行结果表明Bookmark系统具有良好的信息记录、推荐和共享功能。

4 结束语

数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。

【参考文献】

1 张玉峰.智能情报系统.武汉:武汉大学出版社,1991

2 冯萍,宣慧玉.数据挖掘技术及其在营销中的应用.北京轻工业学院学报,2001(1)

3 郝先臣等.数据挖掘工具和应用中的问题.东北大学学报(自然科学版),2001(2)

地理信息数据获取方法篇4

关键词:动态交通信息采集浮动车

在itS的发展过程中,“3S”技术发挥着越来越重要的作用,它可为智能交通系统提供了必要的空间数据和交通信息的获取、处理、分析和可视化理论和技术支持。动态交通信息传统的采集手段主要有感应线圈、视频、微波、超声波、红外及激光雷达等车辆检测器。近年以来,随着传感技术的发展,基于低空遥感平台的大范围交通信息高精度快速获取成为一种有效地动态交通信息采集方法。

1、动态交通信息概述

动态交通信息主要是指道路上所有移动物体所具有的特定信息,这些信息根据实际的交通状况时刻变化,主要包括交通流信息和交通事件信息。交通流信息包括交通量、平均车速、占有率和车型等;事件信息包括事件或拥堵的类型和位置等。

动态交通信息采集有历史数据和实时数据之分。历史数据主要是离线应用,用于对历史交通状况的统计分析;实时数据时在线应用,用于实时交通状况的分析与控制,绝大多数的交通管理的功能都是依靠实时数据。

2、基于浮动车的交通信息获取

目前,GpS车载设备和GpS指挥调度系统已被成功地应用于我国的城市公交交通、商务车运营、危险品运输、物流管理和防盗报警等多个行业。因此,基于浮动车的交通信息获取在我国具有应用基础。基于浮动车的交通信息采集技术的主要步骤和关键技术包括:

(1)海量浮动车数据预处理与质量控制

剔除错误数据和不可用数据,对缺失数据进行修补,对数据精度作以评价等,旨在得到干净、高质量的交通数据。

(2)海量浮动车数据地图匹配

地图匹配是浮动车数据用于交通状态估计的关键步骤之一。对于海量浮动车数据而言,既要保证匹配精度,也应考虑匹配效率(单位时间内完成地图匹配的浮动车数量)。

(3)最小样本量和置信区间

浮动车定位的精度已知,数量越多则对道路交通流参数估计的精度越高,但是也会增加通信、存储成本和数据处理量。最小样本量和置信区间就是研究不同浮动车样本量条件下交通流参数(平均速度等)的置信度,并且找到样本量增加但估计精度不显著增加的“拐点”,寻求全局最优解。

3、基于低空平台的动态交通信息获取

基于低空遥感平台的大范围交通信息搞精度快速获取是以无人机/飞艇等低空飞行器为载体,由差分GpS/inS集成定位系统、CCD、激光扫描仪与无线传输设备等多传感器集成的低空遥感平台,实现大范围异常交通信息的快速获取、多源交通数据的融合与处理,以及非常态条件下实时路网信息与交通流信息一体化联动分析与交通状综合评价等。基于无人机/飞艇的非常态交通信息获取的低空遥感平台具有尺寸小、无人驾驶、机动灵活、安全可靠、可低空飞行、适应环境强等优点,不仅能克服线圈等地面固定交通信息采集凡事无法移动的不足,也能摆脱非常态条件下车载等地面移动交通信息采集方式不可到达的束缚,成为一种在有效的大范围交通信息快速采集技术与方法。

4、动态交通信息获取新型技术

随着计算机技术、移动通信技术等的快速发展,交通信息的获取技术从静态采集技术向动态采集技术快速发展,尤其出现了一些新型的交通数据获取的新方法,如利用移动通信技术、无线射频(RFiD)技术、蓝牙、wiFi以及平流层飞艇等新技术,实现交通信息的获取。

4.1移动通信

通信技术的快速发展与先进通信工具的日益普及,使得利用手机的定位技术进行交通信息采集已成为可能,基于移动通信网络的交通信息采集技术最近几年在世界范围内得到了快速发展。利用手机的定位技术进行交通信息采集,利用移动通信技术,通过在运动车辆中的移动通信工具盒移动通信网络的蜂窝机构,通过手机的定位信息来推算车流状况,从而获取相应的交通信息。

4.2移动通无线射频识别(RFiD)

无线射频识别技术是一种非接触式自动识别技术,其基本原理是利用射频信号和空间耦合(电感或电磁耦合)传输特性,通过射频信号自动识别目标对象并获取数据信息。该识别无须人工干预,可工作于各种恶劣环境,并可同时识别多个目标对象,操作快捷方便。

4.3平流层飞艇

平流层飞艇是指在平流层高度范围内能长期低速机动飞行或定点悬停的巨型无人驾驶飞艇,既可以应用于国民经济领域,也可以作为军事工具。基于平流层飞艇的交通遥感平台是一种非常有力的用于大规模社会事件,如灾害、集会等路面交通管理的技术手段。该交通遥感平台分别由空中和地面两个系统组成,利用该平台可以进行大范围区域交通的连续观测、非常态条件下的交通应急指挥与调度以及多源大范围交通数据的快速获取。

5、交通检测器组合应用优化方法

地理信息数据获取方法篇5

1云端数据保护的相关研究

1.1安全性云端数据的安全性主要指用户存放在公有云存储空间内的数据内容不被任何未经授权的实体访问、修改和删除。实现其安全性的手段主要有两种:①通过访问控制机制对用户操作权限的认证和授予;②对用户存放的数据内容进行加密[1],分割[2]等处理。将两者进行结合,采用第三方访问控制和加密密钥分发机制,可以进一步地增强用户云端数据的安全性,并避免不可信的公有云存储服务提供商获取用户的私密信息和数据。

1.2可用性云端数据的可用性也是衡量一个云存储系统的重要指标。服务提供商应当为用户提供按需无错的数据服务,但数据损坏和数据丢失的事故无法完全避免,每一次出现都给用户造成了大量的损失。相关研究提出了将多个公有云存储服务进行整合,形成一个逻辑上的独立存储服务。而存放其中的数据则冗余地存放在多个公有云存储服务提供商中,并采用备份和同步技术来确保少数公有云存储服务故障时用户仍然可以从其他公有云存储服务中获取其需要的数据[3,4]。

1.3数据访问隐私所谓的数据访问隐私保护是指一种防止云存储服务提供商通过用户的访问日志记录学习、分析用户使用行为的机制。由于公有云存储服务提供商根据访问控制手段中的日志记录功能可以获得其所存储数据的访问者、数据的访问时间、被访问的具体数据、用户正在进行或潜在地将要进行的操作、所存储的数据量和访问用户客户端的位置等信息[5]。在这种应用环境下,访问控制策略和用户的访问模式也成为了隐私敏感信息的一部分,应当对其进行保护[6]。文献[7,8]主要研究如何在不影响服务提供商的访问控制机制功能的前提下,对用户访问凭据和身份信息进行保护。文献[7]中使用了基于公钥基础设施(publickeyinfrastructure,pKi)的访问控制机制,数据所有者通过哈希加密和第三方证书发放的机制,确保用户的身份信息在访问过程中不被服务提供商所获取。文献[8]则通过用户的属性信息经过不可逆运算生成访问凭据。通过提交访问凭据,用户获取数据的访问权,而服务提供商无法根据用户的访问凭据获取用户信息。除了在访问控制过程中用户所提供的认证凭据外,用户数据隐私也可以从用户上传的数据文件中获取。文献[2]中提出了基于数据分割分级的隐私保护机制,将数据分割并分别存储在本地和云端,然后根据用户的安全需求联合采用数据染色及不同程度的加密技术进行数据染色和加密。文献[9]中基于数据隐式安全[10]的原理,将数据进行隐式分割并进一步进行二次混淆,以确保云端数据隐私的安全性。

2新的云端数据保护方案

2.1云端数据保护方案描述系统对需要存放在公有云存储空间内的数据文件提取元数据,再对文件内容进行分割或合并等混淆处理后再上传至公有云存储空间,考虑到安全性的需求,还可以对其进行加密处理。元数据信息存放在本地组织内,其中主要包括了原始数据文件的元数据、用户上传时指定的数据处理参数。对于用户云端数据的安全性,考虑到系统性能开销,主要采取分割或合并的混淆方式,如果有特别的安全需求,也可以对数据进行加密。具体的数据安全方案由用户上传时定义,根据上传文件的安全需求采用不同操作对数据进行处理。数据的解密密钥以哈希值的方式存放在元数据信息的数据处理参数中。用户云端数据的可用性则通过在多个公有云存储之间进行冗余存储、及时同步的方式来确保。其备份路径等信息同样存放在元数据信息的数据处理参数中。用户上传数据文件的元数据以及用户进行数据访问时提交给服务提供商的相关信息,是服务提供商学习用户访问行为的主要数据来源。将用户数据内容与其元数据信息分散存储,并对用户上传的数据文件进行混淆或加密处理可以起到对这些信息的保护作用。经过上述处理的数据文件与处理前数据文件的关联只在提取出的元数据中得以体现,而这些元数据将存放于本地的数据库或私有云存储空间内,不会被公有云存储服务提供商所获取,服务提供商仅能获取经过处理后的数据文件所对应的元数据,而这些元数据和经过处理前的数据文件并无明显关联,没有进行学习的价值。用户需要对某个数据文件进行访问时,首先访问存放元数据的数据库,获取有效文件和处理后云端文件的对应关系。分割或合并的处理过程导致这样的对应关系并不固定,可能为一对一、一对多和多对一,可以在一定程度上削弱有效数据文件和处理后云端文件的关联关系,对服务提供商学习用户访问行为的过程起到了相当程度的干扰作用。

2.2混合云存储系统本文所提出的混合云存储方案的系统架构如图1所示,用户与私有云存储系统位于企业网络内部,由企业用户管理。而私有云存储系统则通过调用公有云存储的服务接口,将相应数据存放在多个公有云存储空间内。这些公有云存储和企业管理的私有云存储共同构成了一个混合云存储系统,为企业用户提供云存储服务。本文所提出的系统基于Hadoop分布式计算平台所构建,而Hadoop分布式计算平台所使用的文件系统HDFS(Hadoopdistributedfilesystem)默认情况下将文件按照64mB的大小分散存储在多个数据节点(datanode)中。采用接近且不超过其分块单位的文件大小有助于提高HDFS的运行效率。因此本文所进行分割或合并操作的文件大小分类阈值定为HDFS的数据块大小,默认为64mB。从企业内使用者的角度来看,混合云存储系统是一个为用户提供云存储服务的整体,在逻辑上显示为一个文件目录系统中,而实际的物理空间分配却并非如此。用户在上传数据文件至混合云存储系统中时,需要根据文件内容自行决定是否将其存放在公有云空间中。用户上传完成后,上传的文件将临时存放在私有云存储空间内,由系统进行进一步处理,用户上传文件流程如图2所示。数据文件的元数据包含了相应文件的逻辑位置、物理位置、处理流程和加密密钥的哈希值等信息,确保系统可以根据元数据信息正确地处理和获取文件。对于用户指定存放在私有云存储空间内的文件,系统不再进行额外处理,而对于用户指定存放在公有云存储空间内的数据文件,系统将根据元数据信息对用户已经上传到私有云存储空间内的文件进行处理,生成处理后的数据文件上传至公有云存储空间,并更新元数据信息,如图3所示。用户对混合云存储系统中的数据进行读取时,若数据文件存放在私有云存储空间内,则用户需要时可以直接进行访问。而对于存放在公有云存储空间内的数据,系统需要根据元数据信息从公有云存储空间内将其读取到本地,并进行逆向处理得到原始的用户数据文件,这个过程如图4所示。

3混合云存储系统分析

3.1数据安全性分析经过混合云存储系统处理并上传至公有云存储空间内的用户数据通常经过了分割或合并的混淆处理。对于可以直接访问云端数据的攻击者来说,数据分割合并处理时生成的元数据信息是存放在私有云内部的,攻击者无法直接获取,因此也就无法获取混淆处理前的原始数据。若只根据访问记录来判断云端数据之间的关联关系需要耗费大量的时间,而且这个开销随着数据量的增大而增大。此外,若用户选择对数据文件进行加密处理,则攻击者还需要获取文件的解密密钥。因此,对于仅能获取公有云存储空间内数据的攻击者来说,还原用户的原始数据需要花费较大的开销。

3.2数据可用性分析混合云存储系统中的公有云存储部分由多个公有云存储服务组成,用户的数据文件被冗余地存放在多个公有云存储空间内。若某个公有云存储空间内的用户数据不再可用,系统仍然可以从其他的公有云存储空间内获取相同的用户数据,保证了用户数据的可用性。

3.3数据访问隐私保护分析公有云存储服务提供商获取的用户数据访问隐私可以分为两种:公有云端数据文件的元数据信息和用户对公有云存储服务的使用记录。服务提供商以获取到的用户数据访问隐私信息作为样本,利用机器学习和数据挖掘技术对样本进行学习,从而获取样本数据中隐含的信息。为了对用户数据访问隐私进行保护,本文所采取的思路是对服务提供商所采集到的数据样本集合进行伪装和隐藏,使其无法获得真实准确的样本信息从而影响其机器学习结果的准确性。但是考虑到公有云存储服务提供商必须对服务使用者进行访问控制身份验证,因此一部分数据访问隐私例如访问客户端地址、访问时间等是无法对服务提供商隐藏的。从公有云存储空间内数据文件的元数据来看,表1是需要进行分割处理的用户数据文件处理结果,原始文件为66.54mB大小的rar类型压缩文件。表2是需要进行合并处理的用户数据文件处理结果,原始文件为4个425.7KB的jpg图像文件。由表1和表2的处理结果可知,经过混合云存储系统处理后的用户数据文件,服务提供商所获取的大部分元数据信息与原始文件的元数据并不一致。当用户需要获取一系列数据来完成一个复杂的业务流程时,对云端数据的请求指令构成了一个请求队列,该队列的组成通常具有较为固定的模式,这是由用户所要进行的业务流程确定的。使用混合云存储系统对处理后的用户数据文件进行冗余存放,用户随机向不同的服务提供商发送数据访问请求,从而降低了用户数据请求操作之间的关联性,单个服务提供商分析用户正在进行和潜在地将要进行的操作将更加困难。综上,本文所提出的方案对云存储服务提供商所采集到的数据样本集合产生了较大的影响,因此也会对其机器学习结果的准确性造成影响,从而起到保护用户的数据访问隐私的作用。

4结束语

地理信息数据获取方法篇6

一、基础数据采集

网络产生巨大的数据量,例如2013年,每天平均产生两百多万tB的数据量而且信息来源多样,这些信息都是获取有效舆情的数据基础,我们首先要尽可能全面地收集到这些信息。网络数据获取可以采用网站提供的api或网络爬虫工具获取。使用api方式是通过网站提供商获取数据信息,为了避免频繁调用对网站服务产生影响,一般调用api次数都会有一定限制,同时网站对于获取数据权限有各种限制,由于种种限制,目前普遍研究和使用的网络爬虫都不使用api。网络爬虫指从一个或多个指定的网页开始,在全网范围搜索获取网络信息资源,通过简单设置目标网站、爬行间隔和存储位置等就能够自动批量获取网页内容,为数据获取提供极大便利。常见的网络爬虫有传统网络爬虫和聚焦网络爬虫。传统网络爬虫获取的数据有一定盲目性,获取的信息很大一部分都不符合要求,造成时间、资源的浪费。而传统网络爬虫的并行机制也带来数据重复抓取、页面质量下降等问题。但传统网络爬虫具有获取数据完整、速度较快的优点。聚焦网络爬虫增加了页面相关度评价和URL价值评价功能进行信息过滤和分析,利用主题相关度评价模型过滤掉与主题无关的网页,利用URL主题相关度控制爬虫爬行过程,不遍历和主题无关页面,提高爬行效率。聚焦网络爬虫数据相关性高,但速度较慢。在舆情采集过程中合理利用网络爬虫,可以在短时间获取大量网络数据,但这些数据存在大量冗余,数据针对性不高,需要后续提取分析。

二、冗余数据清洗

网络舆情分析的主体是与主题相关的数据信息,通过网络爬虫程序获取的是由HtmL和各种脚本语言构成的web页面,web页面由与主题相关的网页正文和与主题无关的数据组成,与主题无关的数据也称为网页噪音。由于web页面的形式多样,正文与噪音之间没有明确的界限,而大量存在的网页噪音造成资源浪费,对正文分析也造成很大干扰。我们需要对页面进行处理,剔除网页噪音,比如页面中的广告、导航信息、说明文字等,提取正文、链接、作者、点击量等主题相关信息。通过去噪处理得到的文档一般包含大量重复信息,互联网信息频繁的转发、复制以及不同URL地址指向同一页面等情况都导致信息重复,重复信息成倍增加工作量,去除重复文档也是进行正文提取、分析的必要步骤。我们可以对文档进行向量化处理之后,计算各个特征词的权重,利用相似度算法计算词语与词语之间的相似度,通过计算文档相似度,去除重复信息。当前网页去重算法有很多,但大多数都是基于shingling和LsH的思想,比如对shingle生成策略的改进,对LsH指纹间海明距离计算的改进,以及对这些算法本身参数设置不同而带来性能变的研究等。

三、正文文本提取

通过去噪去重处理,修剪掉网页多余数据,如何快速有效地提取出需要的正文就需要正文提取技术。正文提取技术也是网络舆情发现的一项重要技术。当前常用的网页正文提取算法包括基于Dom树的网页正文提取技术、基于内容规则的网页正文提取技术、基于统计学特征的网页正文提取技术和基于神经网络的网页正文提取技术等。各种提取技术各有优劣,比如目前应用比较广泛的基于Dom树的网页正文提取技术,它利用HtmL的各种标签信息,将网页内容转化成规范的树形结构,通过遍历Dom树的节点,裁剪与正文无关的节点而得到正文内容。这种算法依赖于HtmL标签,对于HtmL规范性要求很高,而且解析过程效率也较低。利用统计学特征的正文提取技术将HtmL代码解析后以行或段为单位保存,统计单位文本和HtmL代码的字节数,通过计算文本和字节数比例得到文本密度,如果密度大于事先设定好的文本阈值,则该部分内容判定为正文。这种算法不需要分析源码,判断准确度较高,但限制性也较大,对于正文集中的内容效率较高。实际应用中需要针对舆情来源及其特点,结合使用各种网页正文提取技术,以达到最佳提取效率和准确度。

四、信息分类与关联

网络信息数据多样,来源复杂,数据分布离散。通过文本处理抽取的正文数据往往是相互没有关联的数据,这些文本在使用时就面临无法分析、统计等诸多问题。利用数据挖掘技术可以将文本经过分类、聚类、关联规则发现等一系列处理,从海量数据中发现主题相关的信息,发现其中的模式、规律等,从而为舆情分析与预警提供依据。文本分类指按照预先定义好的类别集合,根据文本内容进行文本自动分类的过程。是一种有监督的机器学习问题。当前的文本分类技术,大多数是基于向量空间模型,用规则的向量来表示不规则的文本数据。文本分类一般分为训练和分类两个阶段,训练阶段需确定类别集合,并在类别集合选取代表性文档计算特征矢量。分类阶段则计算待分类文档特征矢量,通过与各集合特征矢量比较选取相似度最接近的集合。文本聚类在没有类别集合的情况下进行文本分类。主要依据文档相似度,通过计算将相似文档进行归类。不同的聚类算法采取不同的文本向量组织调度策略,以不同的方式进行相似或相异的比较,将大量无序的文本划归为若干类簇,使得不同类簇描述不同事件,得出不同的话题。文本聚类是一种无监督的机器学习问题,不需要预先定义集合,具有一定的灵活性和较高的自动化处理能力。网络获取的数据类型多样,比如对于一个舆情热点事件,我们可能从网页获取事件过程,从论坛、博客等获取关注度和转发量,从公安部门获取人员、关联信息等,这些数据我们需要通过关联规则发现关联关系,将数据整合为相关的数据网。关联规则挖掘过程主要包含两个阶段,第一阶段从获取的复杂数据聚合中找到出现频率高的数据组,第二阶段在这些高频数据组中产生关联规则。有效的关联规则对于舆情分析有重大意义,但目前我国对这一领域的研究应用尚不深入。

五、话题检测与追踪

话题不同于主题、事件等概念,话题是由某一个特定事件和与该事件相关的一系列事件共同构成的。在大量网络信息中,发现某一话题并按照该话题收集与其相关的信息,对信息重新组织,可以有效了解话题的发展与演变。信息的采集、处理、分类、关联等方法将网络中存在的大量无序数据整合为统一的、存在映射关系的数据网,这个过程以网络中已经存在的各类信息为主体进行简单检索和归类。随着网络规模的几何增长,网络信息多样化,网络舆情具有隐蔽性、突发性、自由性等特点。话题发现与跟踪技术的关注点不仅仅在网络已有信息的收集处理上,还要在大量信息基础上,自动分析判断,发现值得关注的深层次的、新的信息并进行追踪,更倾向于新信息的发现,话题跟踪依据与某话题相关的少量事件,判断出后续新闻报道流中与该话题相关的报道,并将相关报道收集起来实现跟踪。通过大规模文档自动聚类建立话题。话题检测与追踪对复杂无序的网络事件进行深入分析,总结事件中的特征规律。当某一网络事件特征符合其中规律时,就可以预测该事件的发展结果,并对于预测可能导致重大后果的事件进行舆情预警。网络监控人员可以根据预警提前对网络事件进行预防疏导,避免产生严重后果。

六、信息定量评估

地理信息数据获取方法篇7

论文摘要:工程(地质)勘察信息化是一项复杂的系统工程,其中既涉及各种信息处理技术及其集成化应用,也涉及方法论和其它问题。因此,提出工程地质勘察信息化的要求,不但是地质信息科学发展的必然趋势,也是促进地质信息科学的理论框架、方法论体系和技术体系形成主要动力。

0引言

当前,伴随着一般信息科学、地球信息科学、地球空间信息科学和地理信息科学的兴起,地质信息科学已经逐渐形成雏形。这是一门崭新的边缘学科,是关于地质信息本质特征及其运动规律和应用方法的一个综合性学科领域。它的形成与地质学和地质工程各个分支学科的发展和促进密不可分。历史分析的结果表明,计算机技术的引进、改造、融合、集成和应用过程,实际上就是工程(地质)勘察信息化的过程。

1水利水电工程地质信息处理

1.1信息处理技术地质测绘、钻探、山地工程等所获取的数据是水利水电工程地质信息处理的数据源,是水利水电工程地质信息处理流程的起点,这些数据包括搜集到的早期勘察数据和现阶段地质勘察获取的状态数据,不但具有多来源、大数量、多种类、多层次、多维和多应用主题等特点,同时又具有可采集性、可存储性、可管理性、可复制性、可共享性等可信息化的特征。这个过程可以划分为勘察数据获取、勘察数据整理与管理、勘察图件制作、地质体空间分析、勘察成果编制、管理与查询等环节。每个环节都可以对应一种或数种信息技术,如数据的采集与管理可以用数据库技术来实现,勘察图件的制作可以用计算机辅助设计技术或gis技术来实现,地质体空间分析可以用三维建模与空间分析技术来实现,勘察成果的编制可以通过数据库中资料的组合来生成,成果的查询检索可以通过数据库和网络技术来实现。[1]

1.2信息处理方法数据采集是整个处理过程的起点,也是水利水电工程勘察的主要工作之一。所采集的数据包括可以搜集到的前期资料和工程勘察获取的数据,这些数据都可以通过直接录入、导入与二维平面图或三维模型绑定输入等四种方式来进行处理。[2]报告、汇报、归档部分是指利用数据库、二维辅助制图和三维模型与空间分析成果来编制工程勘察报告等勘察成果,并对所取得的成果数据进行审查汇报,最后把成果进行数据库管理和归档。以上这些工作全部处在标准化体系的制约之下,这些标准包括工程勘察规范、数据编码标准、图层设置标准等等,同时这一过程被网络技术进行全面的改造,从而组成水利水电工程地质信息处理的完整流程。

1.3信息处理流程①数据采集阶段。在确定了工作目标后,首先搜集工作区域的各种已有资料,在对搜集到的资料进行分析后,在可能的工作区域内进行野外考察,进一步确定工作区域。在基本确定的工作区域内进行野外测量和工程地质测绘工作。在测绘的基础上进行钻探、物探、地质试验和可能的山地工程等工作。这个阶段主要是获取工作区域内地表、地下的各种地质资料。②室内整理阶段。室内整理阶段是对获取到的地质资料进行校对、分析和分类的工作,使获取到的数据条理分明,便于后期工作的使用。

这一阶段可以滞后于数据采集阶段,也可以与数据采集阶段同时进行。③分析处理阶段。分析处理阶段主要是利用整理后的数据进行各种地质图件的编制,对野外勘探的数据进行统计、分析、计算等,为下一步勘察报告的编制提供各种资料。④编制报告阶段。工程勘察的最终成果是勘察报告,这一过程主要依赖地质技术人员对地下地质空间的感悟与工作经验,充分利用获取的数据和前期对数据的整理与分析处理成果来编制工程勘察报告。⑤成果审查与汇报阶段。这一过程是对整个勘察工作的检查和验收,如果分析不够充分,要返回到分析处理阶段进行更充分的分析处理,如果分析结果缺乏足够的数据,要返回到数据采阶段,进行补充勘探工作,直到审查通过。⑥资料归档阶段。这一阶段主要是把原始勘探资料和勘探成果资料进行分类归档工作。这部分资料同时也是其它工作的资料依据。从信息处理角度也可以把这个过程划分为数据采集、数据管理和数据应用三部分,其中数据管理包括对所采集数据进行管理和对数据应用的结果进行管理,数据应用包括数据统计分析、空间模拟与分析、地质图编制和报告编制等。

2实现地质信息技术的集成化

为了最大限度地发挥各种信息技术的作用,需要实现信息集成化。其原则和出发点是:使各部分信息有机地组成一个整体,每个元素都要服从整体,追求整体最优,而不是每个元素最优;各个信息处理环节相互衔接,数据在其间流转顺畅,能够充分共享。系统有了这样的的整体性,即使在系统中每个元素并不十分完善,通过综合与协调,仍然能使整体系统达到较完美的程度。从工程勘察信息系统实现的逻辑结构看,系统集成的内容包括:技术集成、网络集成、数据集成和应用集成。分布式的工程勘察点源信息系统的建立,就是上述四方面集成的结果。

3结语

工程(地质)勘察信息化是一项复杂的系统工程,其中既涉及各种信息技术及其集成化应用,也涉及方法论和其它问题,要求深化对地质信息机理基础理论的研究。因此,工程地质勘察的信息化需求,也是地质信息科学发展的动力,促进地质信息科学的理论框架、方法论体系和技术体系形成。工程(地质)勘察的计算机应用的理论、方法和技术作为地质信息科学的重要组成部分,在自身发展的过程中也不断地借鉴和引进其它地质与矿产勘查领域的成果,并且逐渐融入地质信息科学的总体发展轨道,伴随着地质信息科学的发展而发展。

参考文献:

地理信息数据获取方法篇8

关键词无人机;视频流影像;摄像机的标定;GpS插值

中图分类号V279+.2文献标识码a文章编号1674-6708(2016)161-0078-02

视频流影像是由一系列空间和时间连续的视频帧组成,而视频帧实质是一副静态影像,它是构成视频流的最小单元[1]。获取无人机视频流影像数据时,由于无人机视频流影像数据与相机影像数据格式不同,因此在进行数据获取和预处理时,可不考虑曝光间隔等因素,只需简单进行航线规划,再检查获取的视频数据即可。视频流数据的预处理主要包括摄像机的标定、GpS插值计算。与搭载非量测型数码相机的无人机数据处理流程相同,在对无人机视频流影像数据进行处理之前,需对视频传感器进行严格检校,经像元畸变改正后,再对影像进行其他处理操作;由于关键帧影像的帧率较高,为保证影像重叠率,每隔一点时间提取一张关键帧影像,而通过无人机搭载的GpS设备获取的数据为离散点坐标,为保证后续处理中提取的关键帧影像均有GpS信息,则对GpS数据进行插值处理。

1无人机视频流影像数据获取

1.1飞行前准备

与传统航空影像获取方式一样,在进行无人机视频流影像数据获取之前,需进行前期工作准备,包括资料收集、测区踏勘、仪器设备的检查等[2]。此外,对无人机视频流影像获取系统而言,还需测试硬件设备。硬件系统主要包括机上发射部分(12V电池组、无线图传发射器(VVLinK-C6000-tX)、天线及天线连接线)和地面接收与显示部分(无线数字图传接收机(VVLinK-C4000-RX)、电源及笔记本电脑)。在静态环境下,测试视频摄像机、天线、无线图传发射器与地面接收机之间的连通性及数据传输能力,检查视频摄像机、天线、电源系统、存储系统等工作是否正常,验证系统电磁兼容性、数据记录存储及数据输入输出功能等。

1.2飞行计划

飞行计划指无人机飞行器的航线设计,根据测区具体情况、应急测绘对数据的要求及系统相关参数,得到无人机外业作业时必备参数,即飞行航高、旁向间隔、航线条数、航线总长度及飞行时间等。

1.3外业飞行数据检查

外业飞行获取的数据可通过机上实时传输系统传回到地面站[3],同时对获取数据的质量进行检查。与检查传统航空影像质量不同,视频影像的数据形式为流媒体,不需要考虑航向方向的重叠度,只需保证视频影像质量清晰,反差适中,颜色饱和,色彩鲜明,色调一致,无云雾遮挡、有较丰富的层次、能清晰地辨别地物影像、满足外业全要素调绘和室内判读的要求,无需对影像航向重叠度进行检查。

2无人机视频流影像数据预处理

2.1摄像机的检校

摄像机检校是后续工作的前提,提高摄像机的检校精度也是完成视频流影像地理编码与拼接的重要步骤。在对摄像机检校之前,应先确认摄像机的机械结构坚固稳定,不存在晃动,同时要保证其光学结构和电子结构同样可靠稳定时,才能对其进行检校[4]。综合考虑摄像机标定的室内检定法、恒星摄影检定法及试验场摄影检定法等算法,本文拟采用室外检校场进行摄影机的几何标定,再利用australia软件解算其参数。其基本原理为:基于最小二乘平差理论,利用光束法区域网平差模型对获取的检校场数据和高精度控制点数据进行区域网空中三角测量,解求出所需的摄像机几何检校参数,即像片内方位元素、径向畸变系数、切向畸变系数、CCD非正方形比例系数以及CCD非正交性的畸变系数。以中国测绘科学研究院家属楼作为检校场地,具体过程如下:

1)检查工作。在摄像机检校之前,先将摄像机加固,固定拍摄距离保持不变。摄像机视频拍摄时,应检查摄像机是否清晰、设置摄像机参数是否正确等,确认无误后进行视频拍摄。

2)视频拍摄。首先在检校场对面五楼楼顶进行视频拍摄。每隔一定距离按-90°、90°、180°旋转摄像机获取的视频数据。拍摄时采取凹凸形式路线行走,上下路线相差大致1m左右,再进行楼下的视频拍摄。拍摄时要求尽量保证所摄视频的大幅面中均含有标志点。

3)几何检校数据处理。其内业处理流程如下:导入影像、设置相机参数、同名点提取、人工选取名点、自动匹配同名点、光束法平差、查看结果和输出报告等步骤。

2.2GpS数据预处理

为使轻小型无人机视频关键帧影像与GpS信息的时间同步,利用时间可将GpS信息与关键帧影像一一对应。在轻小型无人机飞行平台上主要安装用于测图的双频GpS和飞行控制系统中用于导航的单频GpS。其中,单频GpS导出的数据,能与相应视频影像数据时间相对应,而从双频GpS中导出的数据本身含有GpS时间信息。利用两者时间,视频影像与双频GpS数据可对应。由于双频GpS数据不连续,因此需构造数学模型使其能计算每一个时刻的双频GpS数据。方法如下:

采用牛顿插值算法,以时间变化量Δt为变量,三维坐标(X,Y,Z)为因量,拟合GpS轨迹信息。其中,以双频GpS和单频GpS的时间坐标轴相对应的起始时刻t0为时间起点,定义与此时刻的时间间隔为变量Δt,与此时刻相对应的GpS坐标为因变量(X,Y,Z)。记GpS坐标信息(t0,X0,Y0,Z0),(t1,X1,Y1,Z1),…,(tn,Xn,Yn,Zn)等为GpS数据插值计算的已知数据,依次求出X、Y、Z3个坐标方向的插值函数。以X坐标方向为例,具体过程如下:

首先,求X坐标方向的各阶均差,定义插值函数为X,则各阶均差计算式为:

由此便可得出视频流影像数据采集过程中,任意时刻的GpS信息。在进行无人机视频流影像数据处理研究时,重点应用GpS定位数据,保证提取的任何时间点的关键帧影像均有GpS信息,应对GpS数据进行插值处理,为后续视频影像地理编码与拼接工作做准备。

3结论

针对应急测绘的需求,以无人机为飞行平台,搭载视频摄像头为传感器,利用集成的无人机视频流遥感系统实时获取应急数据,通过视频数据实时查看,能够获取灾区实时情况。区别于传统航空影像数据的获取与处理,针对视频流数据的获取与处理,在无poS信息和地面控制点数据的情况下,实现了影像的地理编码与拼接。

参考文献

[1]毕凯.无人机数码遥感测绘系统集成及影像处理研究[D].中国测绘科学研究院,2009.

[2]林宗坚,崔红霞,孙杰,等.数码相机的畸变差检测研究[J].武汉大学学报:信息科学版,2005,30(2):122-125.

地理信息数据获取方法篇9

[关键词]研究生开题 信息源 信息检索 信息分析 信息利用

研究生开题是研究生位论文工作的起始,开题前需要收集整理大量文献信息与资料,充分了解国内外相关领域的研究动态与进展,掌握前人的研究成果,寻找课题设计的科依据和思路。这就需要研究生能准确描述课题背景的信息需求,广泛识别和选择合适的信息源,巧妙运用各种检索技巧,获取所需文献;经过分析、对比与综合,挖据文献信息中的精华,解决课题研究中的实际问题,创造性地完成科研究的任务。

本文以生命科研究生开题为例,介绍了研究生如何快速、准确、全面地获取信息资源,如何独立、有效、准确地解决研究中的实际问题,同时,根据开题阶段的特点,将研究生开题之信息基础技能和晋级技能融入实践中,描绘开题的信息技能导航图,为开题提供充分的准备。

1 研究生开题之信息基础技能

研究生开题阶段必须具备的信息基础技能包括准确界定与表达研究背景的信息需求,识别和选择合适的信息源,综合运用多种检索技巧,从而准确获取所需的文献信息。

1.1 准确描述研究背景信息需求 20世纪90年代以来,生物信息资源飞速发展,生命科也由传统的生物研究转变为一门实验性的科。研究生在开题阶段,需要大量阅读相关文献,深入了解研究课题的背景信息,为课题的创新提供基础。在了解研究背景信息的过程中,要注意以下几个方面:①要重点关注国内外的同行与相关研究机构。要深入一个研究领域,了解哪些人正从事此项研究,以便进行相关信息跟踪,也可将他们进一步发展成为合作对象或竞争对手。一般情况下,第一作者是文章的执笔者和研究工作的主要完成人,而通讯作者则是整个研究的策划者、指挥者和术带头人。从第一作者可以了解最新的实验技术和方法,从通讯作者则可了解整个研究的思路。除了这些在公开出版物中能找到的研究者外,还有一些正在从事相关研究但尚未有成果发表的研究者,他们或是团队新成员,或是交叉研究的执行者,从他们所在的研究机构可挖掘相关信息。②要了解整个领域研究的热点与趋势。借助文献计量和可视化工具,通过信息的比较分析,发现研究的热点与趋势,跟踪研究的最新进展,进而认真策划自己的研究,使成果富有创新性。③要详细了解国内外相关或相似研究中所使用的材料与实验方法。生命科是一门以实验为主的科,实验材料的优劣、实验方法的好坏是决定研究生位论文能否顺利完成的关键。相同的方法应用于不同的材料,实验结果不尽相同;相同的方法,稍加改造,移植于不同的材料,尤其是同种属间的材料,可以为研究成果的创新提供途径。研究背景信息需求的描述如图1所示:

1.2 识别与选择合适的信息源

信息源是指获取信息的来源。随着科技术的发展,信息源的表现形式多种多样,生命科研究中常用的信息源有:①期刊文献。通常为原始文献,研究成果的直接报道;信息更新快,如月刊、半月刊、周刊,甚至有些生物期刊每天会有部分online而未正式出版的文献;信息量大;比较分散,每篇文献都自成一体。最有影响的综合性期刊有nature、Science、pnaS、Cell等;会的期刊有JBC、microbiology、plantphysiology、neurology等。②专著。专著的内容比较详尽、系统,但出版周期长,新颖性不够。在研究生开题阶段,专著不失为了解研究背景与经典实验操作的捷径。常见的专著有《分子克隆实验指南》、《基因工程原理》、Gene、Genome等。在Springerlink、ScienceDirect、wiley和netlibrary等数据库中有很多的电子图书,缩短了专著的获取周期,为信息的快速更新提供了条件。Springer电子图书(Springer-ebook)每年收录约3000种新出版的专业图书,wiley在线实验指南中则包含了14类实验室操作指南,涉及生命科、医药与健康、化等科领域。③会议文献。定期举行的国际国内大会,是以一个研究为主题,召集国内外的顶级专家来探讨交流,如国际生化大会每三年举行一次,国际遗传大会每五年举行一次,国际动植物基因组大会则每年在美国举行,研讨国际动植物和微生物功能基因组研究的最新进展。因此,会议文献标示了一个研究领域的“风向”。④专利文献。一般指专利说明书,详细阐述发明的目的、用途、技术梗概和专利权限。从专利文献中可以了解某领域的技术水平及发展的最新动态…。全世界每年发明成果的90―95%在专利文献中可以查到,其他文献中只能反映这些成果的5―10%,因此,专利文献是查找技术应用及数据的重要文献信息源。生命科领域常见的有基因或序列专利、技术方法专利和药物专利等。⑤专业数据库。是以专业数值、数据为收藏对象的数据库。专业数据库更新快,数据量呈指数增长,数据库使用频率高,应用性强。生命科领域的专业数据库很多,如各种基因组数据库、蛋白质数据库,各个模式生物数据库等。专业数据库中的高通量信息也是其他资源所无法取代的,如美国国立生物技术信息中心(nCBi),是一套生物信息整合系统,既有pubmed和pmC等文献数据库,又有GenBank和emBL等核酸数据库、mmDD等蛋白质和大分子结构数据库,可以从中获取蛋白质/核酸序列信息以及基因组图谱信息。⑥科研基金资助信息。科研基金对促进科技术发展有着积极的作用,基金资助项目是科研活动中常见的重要形式,往往反映着某一领域前沿的热点问题、研究动态和最新的研究成果。在研项目表明了国内外同行正在或将要进行的工作,这比公开发表的术成果或会议信息要提前不少时间。国内常见基金项目有国家自然科基金、863计划、973计划和重大专项等;国外常见的基金项目有美国国家科基金(nSF)、美国农业部基金、美国国立卫生研究院基金(niH)、德国国家科基金(DFG)和日本振兴协会的项目等。⑦实验记录。是实验设计、操作与结果的完整记录,既有成功的经验,又有失败的总结,是不可多得的重要信息源。由于实验记录是各个课题组内部的资料,只能通过同组成员之间的传递,因此,外界较难获取。⑧术论坛。网络技术的飞速发展,为术论坛的搭建提供了很好的平台。国内比较好的生物论坛有小木虫、丁香园、生物通、生物谷等,国外比较好的论坛有bioforum、biologyonline等。论坛中可以就自己关注的信息发表评论,跟同行进行交流。生命科研究

常用信息源如图2所示:

1.3 综合运用检索技巧,制定检索策略

常用的信息检索途径有关键词、主题词、题名、作者、研究机构和出版项检索等,但这些检索途径不是完全独立的,可利用信息检索技术进行相关组配,缩小或扩大检索范围。常用的检索技术有三类:①布尔逻辑组配检索,如and,or,not;②字符串匹配检索,如精确检索、模糊检索和截词检索;③位置逻辑检索,如邻近关系、字段关系和从属关系。通过对作者名字和研究机构或主题词/关键词进行相关组配,找到所需的文献。

检索策略是指为实现检索目标而实施的方法。制定检索策略需要:①进行研究课题分析,弄清检索目的及需要解决的问题,确定检索词如关键词或主题词等;②选择合适的信息源,如期刊文献、会议文献、专业数据库等;③确定检索途径,可以选择主题词/关键词检索、研究机构或来源出版物检索等;④科合理地安排检索词之间的逻辑关系、位置关系及相应的检索步骤。检索策略的制定不是一劳永逸,需要在实践中检验,并不断修改与完善,直至查出的信息尽可能地全、准,尽可能地贴近课题研究的需要。检索策略的制定过程如图3所示:

1.4 多途径获取研究所需文献

面对如此众多的信息来源,如何快速高效地锁定所需文献?文献的获取途径有多种方式,一般情况下先中文后外文;先文摘数据库后全文数据库;最后再在其他数据库、基金、个人或机构网页以及一些科研社区或论坛中补充相应信息。文献检索结果可借助工具或软件进行相关分析,以便优化检索与利用。

生命科研究中重要的文摘数据库主要有iSiwebofScience、Biosispreview、medline、pubmed、Facultyof1000Biology,这些数据库涉及的科比较全面,信息的质量比较高。iSiwebofScience(SCie)收录了6800多种核心期刊,涉及自然科、生物医和工程技术等170多个科领域,数据回溯至1900年,每周更新;Biosispreview是国际公认的查阅生命科最权威的文摘索引数据库,收录了会议、报告、评论、图书和专论等多种文献,期刊论文来源于100多个国家的6000多种期刊;Facultyof1000Biology荟萃了2300多位全球顶尖科家对生物领域24个专题论文的评估、推荐、分析和评比,提供了目前世界上最重要的生物论文信息及研究趋势。文摘数据库的检索结果,初步比较后筛选出比较重要的文献,可在全文数据库中获取全文或申请文献传递。常用的全文数据库有Springerlink、elsevier、wileyinterscience、oxfordUniversitypress(oUp)、nature,Science、pnaS、annualReview、CSHL、BmC、pLoS、中国知网和维普科技期刊数据库等。其中,annualReview系列刊为每年一期的综述,对于快速把握某一研究领域的动态非常有效;Springerlink检索结果可以按出版日期、内容类型、科、语种等再次分类;elsevier检索结果可以按内容类型、期刊名/书名、主题、年份等限定或排除相关文献。常用会期刊有plantphysiology、JBC、microbiology、neurology等。

不论全文数据库还是文摘数据库,都是收录了已经公开出版的期刊文献。由于写作、投稿、出版、,需要经历较长时间,因此,期刊文献具有一定的时间滞后性,这不能完全满足科研的需要。会议报道、大会交流及术沙龙ppt等弥补了这一缺陷。会议摘要或会议录,按主题汇聚了同一领域的众多专家的研究成果,尚未发表,具有很强的时效性。国际会议信息可在ConferenceproceedingsCitationindex―Science(CpCi.S)即iStp和ei中检索,中文会议可在CnKi中检索。

从国内外的基金资助信息中,可以了解国内外同行已经完成、正在或将要进行的工作,挖掘某个主题研究的发展方向和研究热点,从而预测未来的发展趋势,尤其在研项目信息,是非常重要的信息来源。

对于特定的数值数据,如基因信息、蛋白质结构、基因组信息可在科专业数据库中检索,常用的专业数据库有核酸序列数据库、大分子结构数据库、基因组数据库、模式生物数据库等。wileyinterscience在线实验室指南中提供了部分实验操作的技术参数与步骤,特定的研究内容与技巧方法还可以查阅相关位论文、专利和标准文献。网络信息与灰色文献如社区论坛、个人主页等则是对以上所有资料的补充。文献信息的获取途径如图4所示:

2 研究生开题之信息晋级技能

研究生的信息晋级技能,主要表现为利用前期获取的信息,准确解决课题研究中的实际问题。这些技能包括科研信息的跟踪能力、管理能力和分析能力。

2.1 文献信息的跟踪

信息检索后,检索策略可以保存,用于信息跟踪。数据库中的信息跟踪主要有两种形式:alert和RSS。alert是重要的网络信息定制与通报服务,用户需要注册登录,选定研究主题领域或设定关键词,当有相关最新文献出版时通知用户;也可选定期刊,及时了解最新出版的期刊文章,跟踪某篇特定文章,获取最新的引用信息及研究进展。定制信息可以html或text发送至e-mail中。RSS也叫聚合内容(ReallySimpleSyndica-tion),是站点用来和其他站点之间共享内容的一种简易方式,RSS订阅可以获取一些时效性比较强的文献信息。研究生在开题阶段可根据检索需要建立RSS文件订阅,利用自己的RSS阅读器自动获取数据库中更新的文献信息。

2.2 文献信息的管理

信息管理可借助于文献管理软件(endnote)完成。endnote可与文献数据库平台相结合,用于组织和管理术文献,辅助科研究。endnote中可以按照研究专题将文献分成多个不同的组,便于管理与查找;可记录文献阅读心得,如技术方法与研究思路,便于研究过程中的利用;可在写作过程中根据目标期刊参考文献的规范格式(style)生成论文的参考文献列表。除了end―note外,还有一些常用的管理软件,如医文献王、noteexpress、Refworks、Quosa等。

2.3 文献信息的分析

信息分析是基于信息的知识生产和智能活动。信息分析存在于科研究中信息活动的各个阶段,如信息需求的产生、信息的获取和信息的挖掘等。信息分析的目的在于获取研究的背景与概况、国内外研究进展以及研究中使用的技术方法,分析可以继续的研究和拓展的内容等。信息的分析、利用和创造极具个性,不同的分析方法,产生的信息增值不同。

信息分析按内容可以分为信息联想、信息综合、信

息预测和信息评估。具体来说,信息联想,是从表层信息中识别出潜在的信息,发现文献信息之间的相互联系,从而产生新的信息;信息综合则是在分析各种文献的基础上,对信息进行科概括与有机组合,从整体上把握研究的本质和规律;信息预测是根据已经掌握的信息,运用科的理论和方法,对相关研究的发展做出科预测;信息评估指对大量的文献信息进行综合分析,经过选择和比较,最终产生满足科研需要的新信息的过程。

信息分析按处理方式可分为数据库分析、文献管理软件分析和专业软件分析。数据库分析是指充分利用一些文摘数据库的附加功能,如iSiwebofScience的“分析检索结果”和ei的“精练检索结果”,进而将文献信息中的作者、关键词、地址、出版物和出版年代等相关信息提取,借助于excel图表的直观显示,发现研究的重点和趋势、国内外同行和研究机构。数据库分析的局限性在于只能对本库检索的信息分析处理,对于其他来源的文献信息,可以借助于文献管理软件,如endnote,点击subjectbibliorgraphy,也可按作者、关键词、出版年代、地址等进行相关分析。专业软件分析则是指借助于Citespace,Refviz,omniviz,tDa等进行的科文献可视化分析,从原始数据中挖掘出有用的信息,为洞察研究或技术的发展趋势、确定研究战略和发展方向提供有价值的线索。文献信息分析情况如图5所示:3构建开题之信息技能导航

研究生阶段的教育重在培养研究生的研究能力,位论文则是全面衡量研究生综合研究能力的重要标准。开题是位论文管理的重要方面,开题阶段的关键在于文献调研,因此,快速提高研究生开题的信息基础技能和晋级技能至关重要。在前期研究的基础上,构建了研究生开题之信息技能导航图,以方便研究生在信息收集、整理和应用的过程中比对、参照,进一步提高他们的信息技能。信息技能导航如图6所示:

从图6可以看出,研究生准确描述自己的信息需求后,要综合运用多种基础技能,广泛收集信息,然后充分利用信息晋级技能,对信息进行高效管理、分析与归纳、演绎与综合,对最新的研究信息进行及时跟踪,吸取文献信息中的精华,从而理清研究思路,制定合理的研究计划与研究策略。只有经过不断的实践、总结,再实践、再总结,循环往复,螺旋上升,研究生才能真正提高自己的信息技能,为位论文的顺利开题与进行奠定良好的基础。

参考文献:

[1]秦殿启.文献检索与信息素养教育.南京:南京大出版社,2008:174―176.

[2]张帆.发现与创新――iSiweb0fKnowledge在科研究全程中的应用.[2010一12一11]..

地理信息数据获取方法篇10

[关键词]科研信息化;民族教育信息资源;服务平台

[中图分类号]G40-057 [文献标识码]a [论文编号]1009-8097(2012)01-9107-03

引言

国家中长期教育改革和发展规划纲要(2010-2020年)明确提出:全面提高少数民族和民族地区教育发展水平;公共教育资源要向民族地区倾斜;加强优质教育资源开发与应用。加强网络教学资源体系建设;建立开放灵活的教育资源公共服务平台,促进优质教育资源普及共享。

云南是民族文化资源大省,聚集了全国近一半的少数民族,是我国少数民族的主要聚居地之一,如何有效地保护、传承其优质的民族文化遗产、开发民族教育信息资源是当前面临的重要研究课题。考虑利用当前国际前沿的信息处理技术,融合民族学、教育学等方面的知识,针对不同的民族特色和民族文化资源特点,以本体理论为基础,结合受教育者、大众对民族教育信息资源获取和应用的具体需求,研究如何综合集成信息技术和手段,研发支持跨学科的科研合作,跨越时间、空间、物理障碍的资源共享与协同工作的软件平台和工具。构建民族教育信息资源服务平台的目标是满足受教育者和大众对民族教育信息资源检索和知识服务需求,它是构建“科研人员+大众+基础数据平台+应用服务平台+协作共享平台”的综合平台,它能全方位、网络化、综合性的服务大众和科研人员,以此满足用户的多元化需求。

一、e-Science概述

e-Science由英国在2000年提出,是为了应对当时各学科研究领域所面临问题的空前复杂化,利用新一代网络技术(internet)和广域分布式高性能计算环境(Grid)建立的一种全新科学研究模式,即在信息化基础设施支持下的科学研究活动。此后,该理念便席卷世界各科研领域,大家都试图用它来解决本学科在研究过程中遇到的种种难题。

e-Science的意义:(1)使得全球性的、跨学科的、大规模的科研合作,跨越时间、空间、物理障碍的资源共享与协同工作成为可能;(2)这将改变科学家们从事科研活动的方法和模式,极大地促进交流合作,推动科学研究的发展;(3)科研信息化是下一代互联网络技术及信息基础设施在科研领域的率先应用。

e-Science的特点:(1)开放式的科学研究;(2)资源共享,包括高性能计算机、实验数据、科学仪器等资源共享;(3)协同式的科学研究。协同式科研可以无空间障碍进行合作研究,并且可以是跨越多个领域的复杂的协同工作。

随着信息技术的发展,科研人员之间的合作和交流更加密切,需要根据科研活动和研究任务的需求,方便、灵活地创建虚拟组织,进行资源分配和共享,有效地组织开展相关活动。民族教育信息化科研协同包括虚拟工作台、数据集成与共享工具、学科文献检索与交流工具、协作工具集等模块。通过构建民族教育信息化的科研协同环境,可以开展系统性、集成性、综合性的科学研究,拓展科研能力。通过信息化的手段改善和优化科研人员开展科学研究的方法,使用信息技术促进科研人员进行跨学科、跨地域、跨组织的交流和协作,提高科研效率和拓展科研能力。

二、民族教育信息资源服务研究现状和研究意义

随着人们对资源建设重要性认识的深入,愈来愈多的学校、企业、机构涉足于这一领域,目前国内教育信息资源服务平台的开发模式主要有以下几种类型:(1)由学校或个人创办的学科资源或专题学习网站;(2)基于校园网的教学信息资源库;(3)由企业研发的大型数据资源系统;(4)分层开发的区域性教育资源库。

民族教育信息资源库建设虽然取得很多成果,但考虑基于e-Science的民族教育信息资源语义化融合管理与创新服务的研究还不多见。云南省民族教育信息资源服务相对落后。要紧跟信息时代的步伐,必须转变和创新服务模式。网络化和语义化融合管理可以解决边疆地区民族教育信息资源服务的共享和网络虚拟化,可以帮助改善和优化传统的民族教育信息资源服务研究方式。这项研究对民族教育信息资源服务和提高教育服务水平具有重要意义。

三、基于e-Scionce的民族信息资源服务平台的设计

基于e-Science的民族教育信息资源服务平台是构建“科研人员+受教育者+大众+基础数据平台+应用服务平台+协作共享平台”的综合平台,它能全方位、网络化、综合大众和科研人员,以此满足用户的多元化需求。该平台能够使研究内容迅速有效的协作与交流,使研究成果在社会公众中得到快速传播。

民族教育信息资源服务平台主要基于数据库技术、数据挖掘技术、机器学习、本体技术、知识工程等先进技术与方法,对民族教育信息资源进行组织、管理与服务应用。民族教育信息资源服务平台包括五层:基础设施层、基础数据层、服务平台层、用户应用层和协作共享层。基于e-Science的民族信息资源服务平台总体设计如图1所示:

基础设施层包括网络设施、服务器、存储器、超级计算机和internet,它为民族信息服务综合集成平台的基础性数据通讯、计算、存储和管理提供基本的硬件支持。

基础数据层包括民族信息资源数据库、领域本体知识库、民族信息资源文档库和其它资源数据库。涵盖了民族信息资源的所有数据,是整个系统的核心。数据的获取主要通过民族信息文档及文献资源等。

服务平台的技术支撑包括数据库应用、数据挖掘、文档挖掘、本体获取与映射、日志挖掘和决策支持。

用户应用层包括用户信息检索、民族信息资源网站和个性化推荐;技术支撑包括个性化推荐技术、可视化技术、智能搜索技术、知识推理与服务、网站自动生成。

协作共享层包括电子邮件系统、视频桌面系统、Voip系统、在线通讯系统和协同工作平台。扩展服务层在民族信息资源服务的基础上,将现有的、成熟的应用系统无缝集成到平台中,方便用户使用。

四、民族教育信息资源服务平台基础数据建设

民族教育信息资源获取来源于internet和web页面、数据库应用系统中现有的与民族教育信息相关的资源和应用采集设备获取的数字化民族教育信息资源,采取的内容包括文字资源、图书资源、图片资源、音视频资源;民族教育信息资源获取、采集和组织管理机制是核心工作。

基础性数据获取是该课题的基础性工作,采集途径多种。重点在信息模型的建立上。获取的渠道主要有:(1)直接从云南省、州市、县现有的民族教育信息资源数据库系统获取数据,并与之保持信息的一致性;(2)利用各种人工方式和途径采集和更新民族教育信息资源;(3)利用互联网实现面向民族教育信息资源搜索和挖掘技术,获取民族相关信息资源;(4)利用文献搜索和挖掘技术获取民族教育信息资源。

基于本体工程方法论methontology,根据前期工作积累的大量民族教育信息资源,提取民族领域基本术语,分析民族教育信息资源中概念和概念之间的关系,研究了民族教育信息资源中概念和关系的表示形式,定义与概念相关的词汇和实体,并构建一组该领域内的公理、定理和规则,构成形式化的民族教育信息资源本体知识。

五、民族教育信息资源服务平台的应用

1.民族教育信息资源检索技术

(1)基于本体的民族教育信息检索技术

基于查询扩展和关系代数扩展的语义检索:从用户查询到语义查询的转换规则,使用转换之后的查询检索数据库;利用本体知识库中的公理和规则来替换查询中的概念或关系,以扩大检索范围;将语义关系代数操作,如并、交、投影、连接等,应用到不确定知识的检索,实现对民族教育信息的复杂检索。

将民族教育信息资源知识本体作为知识描述和检索的语义基础,利用本体推理,研究查询请求的规范化处理、查询请求的冲突检测、语义查询扩展等内容,实现对查询请求及其隐含语义的检索。

(2)民族教育检索自动生成网页技术

建立基于本体的科学家信息资源网站自动生成模型,主要包括:个性化主题图导航学习,智能化知识获取与学习。智能化知识获取与学习可以在海量数据中进行智能知识获取,系统能自动地把检索的内容,组装成为一个界面,相当于一个门户网站。这个界面不是线性的罗列,它可以大大地提高用户的效率。

2.基于语义的民族教育信息资源知识服务

(1)本体知识库与数据库的集成技术

民族教育信息资源建立的本体知识库和现有的民族数据库管理信息系统,两者的集成能够为知识服务对象提供更多的资源信息,采用一定的机制基于数据库实现知识库的存储和推理。

将数据库中的数据转为语义web格式的文档数据(如RDF、owL等),从而可以利用语义web查询机构进行查询或推理;将数据库模式用更具有明确语义的本体来表示,在数据库模式与本体之间构建映射关系,可以将对本体的查询转换为对数据库的查询;使数据源在更高的抽象层进行语义交互,有助于不同系统之间的数据交换和融合。

(2)民族教育信息资源知识服务技术

民族教育信息资源知识服务技术主要包括:基于知识获取与学习的民族信息资源网站个性化推荐技术、可视化技术等。

个性化推荐技术:通过收集用户信息进行用户喜好的判断,用户信息收集方法包括显式收集和隐式收集。显式收集主要是依靠用户自己的个人信息输入,收集数据可能有用户的出生年月、婚姻状况、工作状况以及个人兴趣等。隐式收集则获取用户访问记录、日志等信息。考虑构建个性化推荐系统,把民族信息资源按需求推荐给用户。

可视化技术:在知识发现服务中使用可视化技术,可以用图像、表格来显示信息,让用户对信息含义的理解更加深刻。通过不同的展示机制将检索结果用可视化技术很直观的呈现给用户。

六、结语

结合民族教育信息资源建设的科学研究、大众对民族教育信息资源获取和应用的具体需求,研究如何综合集成信息技术,研发支持跨学科、跨时空的资源共享、信息检索的软件平台和工具;并且满足科学研究、受教育者、大众对民族教育信息资源检索和知识服务需求,这就是构建基于e-Science的民族教育信息资源服务平台的目标。

基金项目:本文受民族教育信息化教育部重点实验室开放基金项目;云南省人才计划项目(2009C1062);云南省应用基础研究计划面上项目(2011)资助。