首页范文数据挖掘技术论文十篇数据挖掘技术论文十篇

数据挖掘技术论文十篇

发布时间:2024-04-24 16:05:27

数据挖掘技术论文篇1

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Datamining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVm)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术论文篇2

数据挖掘技术是一种新型的技术,在现代数据存储以及测量技术的迅猛发展过程中,人们可以进行信息的大量测量并进行存储。但是,在大量的信息背后却没有一种有效的手段和技术进行直观的表达和分析。而数据挖掘技术的出现,是对目前大数据时代的一种应急手段,使得有关计算机数据处理技术得到加快发展。数据挖掘技术最早是从机器学习的概念中而产生的,在对机器的学习过程中,一般不采用归纳或者较少使用这种方法,这是一种非常机械的操作办法。而没有指导性学习的办法一般不从这些环境得出反馈,而是通过没有干预的情况下进行归纳和学习,并建立一种理论模型。数据挖掘技术是属于例子归纳学习的一种方式,这种从例子中进行归纳学习的方式是介于上述无指导性学习以及较少使用归纳学习这两种方式之间的一种方式。因此,可以说,数据挖掘技术的特征在出自于机器学习的背景下,与其相比机器主要关心的是如何才能有效提高机器的学习能力,但数据挖掘技术主要关心如何才能找到有用、有价值的信息。其第二个特征是,与机器学习特点相比较而言,机器关心的是小数据,而数据挖掘技术所面临的对象则是现实中海量规模的数据库,其作用主要是用来处理一些异常现象,特别是处理残缺的、有噪音以及维数很高的数据项,甚至是一些不同类型数据。以往的数据处理方法和现代的数据挖掘技术相比较而言,其不同点是以往的传统数据处理方法前提是把理论作为一种指导数据来进行处理,在现代数据挖掘技术的出发角度不同,主要运用启发式的归纳学习进行理论以及假设来处理的。

2、数据挖掘技术主要步骤

数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。

3、数据挖掘技术的方法以及在电力营销系统中的应用和发展

数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过Fp-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。

4、结语

数据挖掘技术论文篇3

【关键词】数据挖掘;体育科学研究;体育统计

引言

近年来,数据挖掘技术已成为计算机领域的研究热点,随着信息化技术在体育运动中的广泛运用,逐步收集了大量关于运动员成长和选材、训练和比赛等方面的真实有效数据,通过对数据进行整理和分析可得到隐藏的知识和规则,为服务于体育各领域的研究、运动员取得更好的成绩以及体育管理部门的决策和管理提供了有益帮助。

体育科学中拥有大量训练、教学和竞赛中的数据信息资源与体育统计,如何利用这些有效数据,发现潜在的可以利用的规律,是体育科学利用计算机技术亟须解决的问题之一,现有的数据挖掘技术能为此提供帮助,它是指从大型数据集中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程,利用数据挖掘技术,在体育教学、体育训练和体育竞赛中可以提升其训练与服务水平,更好地满足各级各类体育科研工作者的需求。然而由于基础数据资料填报不够完善或准确,数据自身具有不确定性,数据仓库建模规模过于复杂,挖掘算法设计缺陷等原因,造成了挖掘结果失真,不能让教练员和管理人员完全信服,无法在实际的各环节中起到指导作用。

本文查阅近十年来关于体育数据挖掘方面的相关文献资料,从文献计量角度分析该领域的研究内容、存在问题、研究热点,分析数据挖掘技术在各个领域的研究现状,对数据挖掘技术的广泛应用情况进行客观的认识,促使相关部门利用这项技术发现数据中隐含的、有价值的规律,本文运用体育统计的研究方法,对当前数据技术研究的热点、技术瓶颈、研究领域和存在的问题进行分析。科学规范地对这些信息资源进行整合和集成,实现教育信息化、决策科学化和管理规范化。

1数据挖掘的定义

数据挖掘起源于从数据库中发现知识,它首次出现在1989年8月在底特律举行的第十一届国际联合人工智能学术会议上。在1996年出版的总结该领域进展的权威论文集《知识发现与数据进展》中,Fayyd、piatetsky-Shapiro和smyth给出了知识发现和数据挖掘的最新定义,将二者加以区分〔1〕。

数据挖掘(Datamining)的定义为:数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。数据挖掘技术在技术上又有着这样的定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程〔2〕。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。

2研究对象与方法

2.1研究对象

以体育相关领域数据挖掘的研究文献资料为研究对象。

2.2研究方法

本研究通过中国知网、维普数据库和万方数据库等平台,分别以数据挖掘和体育相关运动项目或比赛对1998-2014年的文献资料进行检索,以“数据挖掘”为关键词,并以“体育”为主题检索词进行检索,经筛选后得到96篇该主题相关文献,其士论文3篇,硕士论文17篇,核心期刊29篇,一般刊物及会议47篇。运用体育统计的研究方法,对相关文献进行分类和整理,进行定量综合的研究方法,目的是试图确定研究变量间关系的“真实”值。

研究的重点是对收集到的文章做特征编码,包括以下变量论文领域、期刊级别、发表时间、学历职称、研究方向、备注。

3数据检索分析

3.1年度数量分布统计

从论文年代数量分布表分析,该研究领域的发展可分为两个阶段(如表1):(1)起始阶段(1998-2003年),发文6篇,占文献总量的6.25%,虽然该阶段的研究成果不是很大,但是随着计算机领域数据挖掘技术的运用,也促进了体育科学领域对数据挖掘的关注。(2)快速发展阶段(2004-2014年),随着数据挖掘理论的成熟和体育科学领域研究的深入,特别是计算机和体育交叉学科应用范围越来越广,体育科学研究领域掀起数据挖掘研究热潮,特别是近五年关于体育数据挖掘的研究成果明显增多。

田野在中国体育科学发展现状与展望中第一次为体育科学的发展指明了方向,文章提到建立中国体育科学数据平台,这也为数据挖掘技术在体育科学研究领域更好地应用提供了前提保障〔3〕。

3.2论文来源分布统计

检索论文中,学术期刊类论文共67篇,分布在51种期刊上,从期刊的分布来看,核心期刊有29篇,说明国内在本交叉学科领域研究的一般为高端学者,利用数据挖掘技术对体育科学的研究具有一定的提升意义。根据统计,本主题研究人数为136人,说明该领域还没有形成有力的研究群体。

3.3文章主题分布统计

把搜集到的96篇文献资料进行统计分析,从统计的文献资料情况来看,研究的侧重点主要在体育管理、比赛应用、训练应用、体育教学、研究综述以及其他相关研究(数据分布见表2)。

从以往的研究来看,研究的重点主要是体育管理、训练应用和其他方面,主要集中在数据挖掘技术在体育系统的开发或理论研究上,而关于比赛的研究还相对比较薄弱,关于体育教学的研究就更少〔4〕。

从以上的数据情况来看,这可能跟数据挖掘技术中数据库建立不足密切相关。体育管理、体育训练近些年来积累了一定数量有效的数据,可以通过数据挖掘技术分析得到相关的参考数据,为体育相关领域的决策和管理提供参考。然而,体育比赛和教学方面的数据也都是很直接,但是数据挖掘技术在这方面的应用则较少,可能是在数据搜集和评价标准上还有待统一〔5〕。我们发现还有一部分研究主要侧重于数据挖掘技术与体育相关系统的研制,可以看出这方面的数据挖掘在体育领域已经得到重视,但是研究的成果如何开发和应用应得到研究者的重视。

4归类现状分析

4.1体育管理的相关研究

数据挖掘技术能够为领导科学决策提供强有力的保障。探讨数据挖掘技术对体育管理系统中锻炼者、场地设施、锻炼效果和心理体验等方面的调查数据发现体育利用及需求的规律和模式,辅助体育管理部门决策。钱强、李英〔6〕用关联规则数据挖掘技术在体育领域的相关研究文献进行挖掘,分析数据挖掘技术运用的特征,找出其规律,为数据挖掘技术在体育领域更好地利用提出建议。刘丽等〔7〕认为利用数据挖掘技术,建立了一个统一的体育考试成绩科学化管理框架,扩展了考试管理模块的管理能力,加强了考试管理模块的辅助决策能力。

近些年,体育管理部门对国民体质的监控和监测相当重视,特别是2008年北京奥运会后,体育管理部门逐渐认识到提高全民体育素质才是体育管理工作的关键,因此每年都有很多相关的体质测试。测试的数据可横向和纵向对比参考,基本能代表我国各个民族、各个地区和各种人群的总体特征,并且可以使决策管理部门真实掌握国民体质和健康状况,进而不断改善和增强国民体质,是体育强国战略的一项重要任务。体质数据的分析为体育管理部门正确决策和管理提供一定的帮助,但是我们从研究的内容来看,其作用也只能局限于数据本身的大小比较。在实际操作过程中很多人认为很难得到有效的操作,如乔克满〔8〕等在《关联规则挖掘技术在体质指标分析中的应用研究》中认为,挖掘技术无法实现对结果的最终解析,永远不会替代有经验的体育科研人员所起的作用,它只是更科学、更容易地根据纯数据间的关系挖掘出一定模式的一种工具。

4.2比赛应用的相关研究

关于数据挖掘技术在比赛应用的研究主要从比赛现场统计的真实的、大量的、不完全的、随机的数据中,提取出隐含在其中的、有价值的,对改进战术有帮助的信息,找出比赛过程中制胜或失利的关键因素,这种挖掘方法的应用可使第一时间获得准确的信息,提高比赛过程控制的可靠性和灵敏度。如赵会群〔9〕等的《数据挖掘技术在体育比赛技战术分析中的应用研究》是基于马尔科夫模型系统关键因素分析方法,通过状态转移概率和状态可靠性灵敏度分析两种途径,对乒乓球比赛制胜关键因素进行分析,把乒乓球比赛中的常见技战术进行分类和编码,运用技术手段从而使得技战术采集更加快速,为进一步挖掘关键因素奠定了基础。

如唐艺在研究中提到,数据挖掘是利用数据模型建模,通过在比赛现场输入现场数据参数后,体育比赛现场决策支持系统能够对这些数据进行分析对比,计算出各种情况出现的概率并筛选最优的换人名单、最佳的战术组合等数据。这一结果也显示出数据挖掘技术的功能,通过挖掘无规律、极为复杂的原始数据进行合理的分析整理,从而为比赛过程控制提供有效的帮助。

4.3训练应用的相关研究

运动员的训练过程日益受到广大体育科研工作者的重视,训练的形式、强度、频率呈现出精细化控制,一些世界高水平运动员的训练过程一直处于封闭状态,传统的训练手段和方法很难满足高水平运动员的需求。那么在训练中引进数据挖掘技术成为教练员和科研人员通过建立训练数据的分析模型,来发现不同个体、不同肌群、不同用力方式之间的细微差异,并把这些差异进行科学分析,从而总结出训练的规律。正如黄谦等在论文中从实例入手,通过使用神经网络对运动成绩的预测,可以挖掘出运动成绩或训练状态跟训练指标之间的关系。

4.4体育教学的相关研究

体育教学中引入数据挖掘技术的相关研究还不多,这可能与体育教学的对象和重视程度有一定关系。体育教学中主要是以学生的体育测试成绩和上课质量数据库,统计出学生身体素质发展的规律和体育学习兴趣等方面的问题,从而有助于体育教师改进教学方法,掌握学生身体素质的基本规律。目前,在体育教学中运用比较多的是运动处方的制定,由于学生群体较大,身体素质发展存在很大的差异性,所以根据学生的不同个体特点制定运动处方是体育教学中学生身体素质发展的良好手段,如何把这些庞大的数据制订出个性化的方案,数据挖掘技术可以根据每个学生的各项指标预测体育锻炼成绩的好坏,以此为依据建立起学生的运动处方。

4.5体育比赛预测

当前,随着社会上行业的发展,一些体育和娱乐赛事预测比赛结果的行为不断泛滥,我们暂且不论这种行业是否违法,至少这个行业的确带动了体育相关产业的发展,更重要的是带动数据挖掘技术在体育数据分析领域的发展。正如余金山〔10〕在其研究中提到,比赛预测的主要目的和作用包括两大方面:验证和发现对成绩有意义的影响因素;对赛事的结果进行预测。比赛预测不同于比赛现场数据挖掘技术,因为他们所利用的数据库是完全不同的,比赛预测也就是在比赛之前,利用以往的比赛或训练数据作为基础,从而判断获胜的概率,能解决参赛群体的多样性、多变性、影响因素的复杂性和预测的困难性等问题。

该技术已经在等体育产业领域广泛应用,但是其预测的准确性和稳定性很难得到控制,仅能作为一种参考。

5存在问题

5.1研究缺乏深度与广度

5.1.1理论研究不足

目前数据挖掘理论相对来讲还比较抽象,特别是体育领域缺乏一些计算机专业人才,从而导致该领域的研究不够深入。通过纵向对比,我们发现其他学科领域数据挖掘技术的研究相对较多,这得益于他们对数据挖掘应用原理与技术的研究相对比较深入。黄谦和石勇在数据挖掘在体育训练指导中的应用研究中,使用神经网络预测运动员训练成绩,并很逼近地预测运动员真实成绩。但是由于数据挖掘需要大量的样本数据,这样就导致测试可能有一定的噪音,因此往往导致预测结果有一定的失真,其准确性和可靠性也受到一定影响。因此在体育训练和比赛中仅仅作为一种参考。国内虽有很多学者已投入该领域研究中,但至今未出现有影响力的挖掘模型,同时成果的数量与内容都反映出对体育数据挖掘的理解还停留在较浅层面。

5.1.2应用研究缺乏针对性

目前国内该领域研究文献基本停留在将数据挖掘方法搬过来应用,在体育领域,通常可以利用相关分析和主成分分析确定与运动成绩相关的指标,然后利用回归分析建立运动成绩和这些指标之间的回归方程。目前,多元统计分析的技术在训练数据的分析中使用比较普遍〔11〕,其他应用挖掘方法则比较少见。研究没有针对实际需求进行深入分析与研究,方法原理与应用上缺乏创新。笔者认为只有通过搜集一线运动队的实际有效数据,建立庞大的数据库,根据有利条件来确定数据挖掘的方向和测试方法,从而创造性、灵活性地运用数据挖掘,为运动员的成长成才服务,为全面提高体育素质服务。

5.2结果有效性与确定性

数据挖掘处理对象是海量样本,而且数据搜集、归类、整理、分析是一系列繁琐的过程,一旦一个环节出现错误将会影响预测效果,并且数据挖掘必须建立在海量样本的基础之上,只有提高数据分析量,才能提高结果的有效性与科学性。我们从大部分研究论文中发现,实际分析案例数据量小,且有些还是模拟数据,并非真实数据对小样本数据,寻找的规律或结果可能不具有统计显著意义,不能反映体育变化规律或结果的有效性。

5.3研究的手段和方法缺乏灵活性

目前数据挖掘技术在体育领域的运用还基本是依靠计算机领域的传统研究方法和手段,当研究者需要哪一部分数据和参考值,就会临时搜集部分数据库,根本不对数据库的信息进行有效分析,有些甚至不懂得哪些是重要因子,哪些数据具有对参考值比较高的响应率等,数据挖掘的方法和手段只是模仿和照搬。但事实上数据挖掘技术,是依靠多方面的数据资料库,来分析体育领域存在的问题和优势,进一步推进体育领域与计算机领域的交叉和融合,有利于产生更合理、更科学的研究手段和方法,对促进数据挖掘技术、体育技能的发展和普及具有重要意义。

6小结

祝玮东在《当代体育研究中数据挖掘技术的应用》中认为,当今计算机的计算能力正日益提高,各领域业务复杂性也不断提升,数据的类型越来越多、越来越复杂。数据挖掘的服务内容是为体育科研人员提供有效的数据,如何提高服务质量,如何将有价值的知识资源提供给有需求的用户是我们研究的出发点。

我国体育领域积累并不断扩充着大量的数据,我们的体育科研人员要充分重视这些数据的整理,建立有效的数据仓库和数据集,并运用数据挖掘进行分析,创造新的价值,这是体育科研人员今后运用数据挖掘技术的重要任务。

参考文献

〔1〕〔3〕田野,等.中国体育科学发展现状与展望〔J〕.体育科学,2005,25(1):5-10.

〔2〕赵新辉,郭瑞.基于数据挖掘技术的网络舆情智能监测与引导平台设计研究〔J〕.电脑知识与技术,2012,8(1):1-4.

〔4〕祝玮东.当代体育研究中数据挖掘技术的应用

〔J〕.南京体育学院学报(自然科学版),2010,9(1):132-134.

〔5〕〔11〕黄谦,石勇.数据挖掘在体育训练指导中的应用研究〔J〕.广州体育学院,2009,29(6):106-110.

〔6〕钱强,李英.数据挖掘技术在图书馆读者分析中的应用〔J〕.图书情报工作,2009.6:121-124

〔7〕刘丽.基于数据挖掘的体育考试成绩科学化管理〔J〕.时代教育,2009,5:97-98.

〔8〕乔克满,欧阳为民,等.关联规则挖掘技术在体质指标分析中的应用研究〔J〕.天津体育学院学报,2010,25(5):453-455.

数据挖掘技术论文篇4

[关键词]零售业;数据挖掘;技术;运用

中图分类号:tp391文献标识码:a文章编号:1009-914X(2014)29-0354-01

数据挖掘技术是近年来兴起的被各方关注的技术之一,其在实际应用中的显著优势。我国零售业在近几年的发展速度越来越快,对零售业中的量级较大的数据及信息需要专业化、科学化、有笑话的提取方法以供零售业行业的持续发展。

一、零售业领域中数据挖掘技术应用概况

数据挖掘技术以数据库技术、人工智能、机器学习、统计分析、模糊逻辑等多门学科的理论为基础依托,结合不断的探索、实践、规律总结不断演化出来的具有高端应用价值的技术。

(一)零售业数据挖掘技术的发展历程

从数据挖掘技术的发展可以清晰看出人类对社会认知的转变历程。就数据挖掘技术而言,其核心技术在于数理统计理论,人们对于数据、信息的敏感程度可以对数据挖掘技术的不断提升有所帮助。鉴于数据挖掘技术的优点,零售业领域中复杂多样的数据属性,不断与该项技术融合,促进零售业领域企业的商业利益最大化。

在应用数据挖掘技术的众多行业中,零售业可以说是最早将此项具有现代化意义的技术应用于自身行业中的领军行业。从摸索阶段到现如今的已有基本规律的状态,数据挖掘技术的应有优势愈发凸显,零售业相关企业期待着更好利用数据挖掘技术促进企业做出有利决策。比如在零售业领域中关于数据挖掘技术的经典例子包括沃尔玛超市对啤酒和尿布在销售方面的规律的提炼,以及台风天气对巧克力等食品的更多需求的研究。

在零售业领域尝到数据挖掘技术的显著优势后,包括制造业、财务金融保险业、医疗企业等多个其余行业也纷纷开始效仿,鉴于数据挖掘技术鲜明的实用性及可操作性,一些公司运用数据挖掘的成功案例,充分显示了这项技术的强大生命力。

(二)零售业数据挖掘技术研究的意义

在零售业领域中,条形码管理、销售管理系统、客户资料管理系统等关于商品信息、客户信息、供应商信息、店铺信息、会员信息等海量数据,以零散状态呈现在人们面前,表面看,这些类别的数据之间毫无关联,但透过数据挖掘的眼光便可以清晰看出这些类别数据之间、同一类别数据之间存在着千丝万缕的联系。大数据理论提出以来,零售业领域研究者们变采取研究手段探究领域内海量数据与商品销售、客户群体选择等众多零售商们头疼的问题之间的关系。实践证明,利用数据挖掘技术可以帮助零售商们解决上述看似无解决方法的疑难杂症。比如,购物篮分析可以探究商品搭配方式与用户诉求之间的匹配程度、消费者对于商品摆放样式的好感度等。

从反方向看数据挖掘技术对于零售业领域的应用意义,对于零售业领域内的规律,人们仅凭经验、人工查找总结的方法将很难实现,缺乏有效数据挖掘手段的零售业领域的规律的探究的可能性非常小。而数据挖掘技术恰恰可以迎合人们这一需求,省去了人工查找的麻烦与困扰。特别是在销售相关数据越来越多的环境中,依靠人工积累的方法很难实现行业发展的突破,对于海量数据问题的解决,数据挖掘技术是非常好的选择。

可见,零售业领域中数据挖掘技术的应用不仅历史久远,并且成果显著。但人们不能将眼光仅仅停留在数据挖掘技术给零售业领域带来的已有成功影响,随着社会的不断发展、市场经济环境的不断变化,业内人士需要对于社会市场体系未来的发展要素予以准确把握,并将此作为零售业领域内数据挖掘技术研究的方向。本文的议题设置初衷也在于此。

二、零售业领域中数据挖掘技术的应用范围

查阅大量相关资料、整合已有成功经验后,可以发现,数据挖掘技术在零售业领域内的功能性体现在三个方面:

首先,数据挖掘技术以海量数据为基础的技术要求恰恰符合了零售业领域内超大数量级的数据现状。数据挖掘技术利用计算机设备的准确、快速的算法更新技术,实现了短时间内对零售业领域内的数据进行聚类、提炼规律性成果的可能。

其次,数据挖掘神经网络算法的出现,进一步提升了零售业领域内数据挖掘的应用效率。这一新型算法的出现有效缓解了外部商业竞争对于零售业领域发展的影响。零售业领域内企业的发展离不开高端有效的数据挖掘技术。

再次,数据挖掘技术令企业充分了解客户对于商品销售的喜好及兴趣,帮助企业有效、准确、及时了解并掌握市场的动态变化,可以做到及时针对市场环境的变化调整自身企业的销售模式及销售方案。在对市场动态变化的及时掌握中,零售业企业可以及时洞察市场上的新商机,谋求企业紧急效益。

三、零售业领域中数据挖掘技术应用存在的问题及未来的发展趋势

第一,零售业中数据挖掘技术在分析变量的选择上仍有不足。数据挖掘的技术关键在于聚类方式的确定,而就相对更加复杂的零售业领域内的有关数据信息而言,其在分析变量的确定方式上仍旧需要持续关注实践结果进行及时调整。选择合适的数据挖掘分析变量,可以明显提升数据挖掘技术在零售业领域中的应用效率。

第二,数据挖掘技术所依托的数据抽取方式需要结合用户需要进行及时调整。抽取数据的目的在于从众多杂乱数据中提炼有用信息,减少不必要的工作量。比如求和、平均值、方差、直方图、饼状图等方式都可以结合实际情况尝试。

第三,数据挖掘技术的数据趋势需要有效预测。在纷繁复杂的数据信息中,也是有一些规律性的趋势可以预测的。在零售业领域中,数据趋势的预测工作十分重要。

四、结语

截至目前,真正适合零售业领域的数据挖掘模型还缺乏统一化,真正具有意义、有效性的数据模型的应用范围应该是在各个行业中都具有互通性的,即便行业在特点方面存在差异,但符合当前社会发展形势的数据挖掘技术需要往统一化中带有特色化的方向发展。因此,要保障数据挖掘的基础数据模型可靠。数据模型包括的种类很多,比如概念数据模型、逻辑数据模型、物理模型、采集模型、处理模型、其他模型等。但目前情况看,上述模型的可靠性均需要经过时间的考验,因此,在零售业领域中的数据挖掘技术需要加大对模型可靠性的研究力度。

参考文献

数据挖掘技术论文篇5

【摘要】

在中医学术流派研究中存在着大量的数据,利用数据挖掘技术可以获得隐藏在这些数据中的有用信息。文章结合赵炳南学术流派研究的实例,简要阐述了利用数据挖掘进行中医学术流派研究的可行性和先进性,并提出了数据挖掘的实施步骤和具体的工具、算法。

【关键词】中医学术流派数据挖掘银屑病

自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。

中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料,只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。

针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。

1数据挖掘及其在中医药领域的应用

1.1数据挖掘概述数据挖掘(Dm:Datamining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVm)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。

1.2数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:

1.2.1新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。

1.2.2复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。

1.2.3中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。

1.2.4中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。

1.2.5中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。

2数据挖掘在中医学术流派研究中的应用

以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。

2.1实施数据挖掘的步骤

根据全球首个数据挖掘行业通用的模型标准(CRiSp-Dm),银屑病数据挖掘过程可分成6个阶段。

2.1.1理解问题明确和细化研究目标。

2.1.2理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。

2.1.3准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。

2.1.4建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。

2.1.5方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。

2.1.6方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。

2.2数据挖掘的工具和算法

2.2.1银屑病中医辨证规范研究在银屑病数据库中,存在着许多不确定、不完整、不精确的辨证相关信息,首先利用粗糙集对其进行约简,剔除模糊和歧义信息,保留与挖掘有关的重要症状属性。在此基础上使用关联规则方法挖掘证的分布,证的构成比,从而得到静态关联度。采用Fp-growth或加权的apriori算法找出频繁项目集,确定关联规则。在关联分析的基础上进行相似聚类,通过给定阈值,发现症状的构成以及症状的贡献率,得到症状所属证的聚类。通过遗传算法搜索和K-means局部优化相结合,按照最近基因匹配的交叉算子,在交叉过程中不断产生新个体,保证群体的多样性,减少了K-means算法的早熟现象,解决全局最优的问题。K-means局部聚类可以发现特异症状,利用孤立点算法对其进行特殊处理。所有症状聚类后,会得到n个聚类。因为数据挖掘的结果不带有主观因素,所以这些聚类需要中医皮科专家根据临床实际重新命名。在证候分类的基础上,利用时间序列模式挖掘方法,分析病程中各证基本演变趋势。

2.2.2银屑病中西医病、证、症及客观检查指标的相关性研究在银屑病数据库中,进行西医有关症状,体征的特征提取,用关联规则方法建立症状、体征与客观检查指标的相关性模型,再纳入中医证候分类进行规则归纳,从而建立它们之间的相关性网络。

2.2.3银屑病的证、症及客观检查指标与治疗方药和不同疗法对应关系的研究在银屑病数据库中,利用数据挖掘中的分类方法把治疗银屑病的单味中药进行分类预测,以完善其药性。并用决策树和关联规则分析药物功效分类与其药性特征之间的关联关系,用粗糙集简化药物的药性特征。治疗银屑病的复方药味和药量千差万别,利用决策树、关联规则和面向属性的归纳方法分析不同配伍层次(单味药、药物功效分类等)上药味配伍的关系,并用支持向量机和贝叶斯网络在对复方进行分类的基础上实现对复方共性规律的认识,用粗糙集实现对复方的简化和特征的抽取。中医治疗银屑病有不同的疗法,采用聚类和相关算法确定其适应症。银屑病的证、症及客观检查指标与治疗方药和不同疗法的对应关系主要采用遗传算法模拟研究,对他们的对应关系进行非线性的全局性搜索,寻找出最优化的对应关系状态。

2.2.4银屑病中医临床疗效评价的研究在银屑病数据库中,利用信息抽取技术获得能反映中医临床疗效的有效指标(主要指症状和客观检查指标),并利用聚类和时间序列模式挖掘能客观反映中医药干预银屑病的临床疗效评价指标和方法,尤其要明确症状数据在整个银屑病病程中对疗效评价的贡献。

以上4方面的研究各有侧重又紧密联系,它们涉及了多个技术层面的数据挖掘工具和算法。虽然这些工具和算法相互独立,但都具有一定的互补性,只有在时空上优化组合、紧密配合才能得到满意的挖掘结果。

3前景展望

数据挖掘为中医学术流派研究提供了有力的工具。通过它可以拓展和深化中医学术流派研究的内涵,一方面表现在促进了理论的升华和创新,另一方面表现在有利于有现代科学依据的疾病证治规律的发现,更重要的表现在有助于疾病诊疗技术的与时俱进和推陈出新。这3方面有效地提高了中医学术流派研究的水平和质量,促进了中医药学术的发展。

【参考文献】

[1]胡滨.中医学术流派散论[J].中医文献杂志,2004,22(4):1.

[2]徐江雁,谢阳谷,鲁兆麟.中医学术流派演绎[J].北京中医药大学学报,2003,26(3):15.

[3]邱志济,朱建平.朱良春治疗寝汗辨证论治和用药经验选析——著名老中医学家朱良春教授临床经验(37)[J].辽宁中医杂志,2003,30(1):14.

[4]昊承艳,李振彬.历代名医治疗妊娠腹痛的用药分析[J].中国医药学报,2002,17(12):723.

[5]蒋燕.名医组方用药规律整理研究反思[J].北京中医药大学学报,2003,26(1):15.

[6]刘艳骄.中医临床思维方法学研究探讨[J].中国中医研究院院报,2003:7.

[7]王映辉,姜在旸,闫英杰,等.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术——中医药现代化,2005,7(1):98.

[8]Fanm,mengXF.Datamining:conceptsandtechniques[J].Chinamachine-press:2001:1-322[范明,孟小峰译.数据挖掘:概念与技术.北京:机械工业出版社,2001:1.]

[9]CoulterDm, Bate a,m eyboom RH, et al. antipsychotic drugs and heart muscle disorder in international pharm acovigilance. Datamining study[J].BmJ,2001,322(7296):1207.

[10]ohrn a,Row land t.Rough sets: a knowledge discovery technique formultifactorial medical outcome[J]. am J phys med Rehabil,2000,79(1):100.

[11]朱凌云,吴宝明,曹长修.医学数据挖掘的技术、方法及应用[J].生物医学工程学杂志,2003,20(3):559.

[12]姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48.

[13]顾铮,顾平.信息抽取在中医研究中的应用.医学信息,2005,18(9):45.

[14]杨春华,李春花,王桂枝,等.数据挖掘技术在药物研究与发现中的应用[J].医药导报,2005,24(12):1143.

数据挖掘技术论文篇6

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1

数据挖掘技术论文篇7

关键词:大数据;挑战;发展趋势

中图分类号:tp311.13文献识别码:a文章编号:1001-828X(2017)013-0-01

引言

大数据能够分成科学大数据以及决策大数据等,大数据挖掘技术的应用,呈现的是倒金字塔型,底部是通过it计算系统以及平台层,中间算法以及模型层,顶层应用层所构成的完善系统。当前的大数据挖掘技术在通信企业当中的应用发挥着重要作用,注重对技术的理论深化研究对通信企业的良好发展就有着积极意义。

一、大数据挖掘的功能和主要技术分析

1.大数据挖掘的功能体现

大数据挖掘的功能比较多,在自动预测趋势以及行为的功能上较为突出,数据挖掘自动在大型的数据库当中寻找预测性信息的作用比较突出,这样就大大提高了查询数据的效率。而在大数据挖掘功能中的关联分析的功能上也比较突出,关联分析的主要功能就是找到数据库当中隐藏的关联网,在关联分析生成的规则的可信度就比较突出[1]。大数据挖掘功能当中的聚类功能也比较突出,其中就有着传统模式识别法以及数学分类学。功能中的偏差检测功能比较突出,在数据库当中数据常有的异常记录当中,偏差所包含的潜在知识比较多,有不满足规则的特例以及观测结果等偏差。

2.大数据挖掘主要技术

其一,神经元网络技术。大数据挖掘技术当中的神经元网络技术是比较重要的应用技术,其中用于分类以及聚类和特征采掘的作用发挥比较突出。神经网络模仿生物神经网络,就是分布矩阵结构。神经元网络技术当中前馈式网络以及反馈式网络和自组织网络是比较重要类型[2]。其中前馈式网络是以感知机以及反向传播模型等作为代表的,能用在预测以及模式识别上。在自组织网络类型方面,主要是以aRi模型等为代表的,在聚类的应用上比较突出,在神经元网络的技术应用下,就能大大提高实际问题的解决效率。

其二,线性回归分析技术。大数据挖掘技术中的线性回归分析技术的作用也比较重要,其包含着预测目标以及预测属性,两者关系能绘制二维空间。在具体实施中,沿着轴绘制预测属性值,在这一回归模型方面就能视为一条曲线,曲线用于最小化实际预测值以及线上点间错误发生率。

其三,决策树技术。大数据挖掘技术中决策树技术的应用也比较重要,决策树是在数据属性值基础上实施的归纳分类,其主要的优势是可理解性和直观性。其和神经网络最大却别就是决策树能解释得出结果的决策过程。

二、大数据挖掘面临的挑战和发展趋势

1.大数据挖掘面临的挑战

大数据挖掘所面临的挑战比较多,在数据挖掘对象方面,更大型的数据可以及更高维数以及属性间更复杂的关系,诸多的因素就会使得搜索知识的代价比较高。大数据挖掘技术的应用下,在多种形式输入数据上就面临着比较大的挑战,在当前的数据挖掘工具处理数据的形式上是比较有限的,能处理数值型的结构化数据,但是对文本以及数学公式等进行挖掘,还有事数据自身的缺损以及噪声,在商业数据库当中的应用也有着很大挑战。

大数据挖掘技术应用所面临的挑战当中,验证技术的局限性也比较突出,在技术应用中是通过特定分析方法以及逻辑形式发现知识的。在这一过程当中,系统就可能没有能力交互证实发现的知识,这就会造成发现的知识没有普遍实用性[3]。还有事待挖掘的数据自身可能是错误的,这样在数据挖掘的有效性方面就受到了相应影响。大数据挖掘所面临的问题中,在知识的表达以及解释机制和知识的维护更新方面也比较突出,在支持的局限和其他系统的集成方面也面临着很大挑战。

大数据挖掘技术的应用中,所得到的预言模型不会告诉一个人为什么会做一件事和采取某个行动,为保障数据挖掘结构的价值,用户就要能对自身的数据进行了解。输入数据库当中的异常数据以及不相关字段等对数据挖掘输出结果质量就有着影响。数据挖掘不会在缺少指导下自动发现模型,数据挖掘不会替代有经验的商业分析师以及管理人员所起的作用。

2.大数据挖掘技术发展趋势

大数据挖掘技术的进一步升级下,在应用的范围上也进一步扩大化,其中将大数据挖掘技术在通信企业领域的应用就能发挥积极作用,当前大数据挖掘的技术发展趋势就是开发针对特定应用的数据挖掘系统。在未来的发展过程中,大数据挖掘技术就会实现可伸缩的数据挖掘方法目标[4]。数据挖掘技术的重要发展方向就是基于结束挖掘的发展方向,增加用户交互同时来改进挖掘处理的总体效率,能够有效提供额外控制方法,能允许用户说明以及使用约束。

大数据挖掘技术的应用发展中,数据挖掘语言标准化的目标将会实现,标准的数据挖掘语言以及其他方面标准化工作对数据挖掘系统化的开发就有着积极作用,能有效优化多数据挖掘系统以及功能间互操作。大数据挖掘技术的应用过程中,可视化数据挖掘的技术将会进一步发展,复杂数据类型挖掘新方法的发展应用目标将会实现。

三、结语

综上所述,大数据挖掘技术自身的优势使其在实际工作当中得到了广泛应用,在将大数据挖掘技g在通信企业当中加以科学化的应用下,就能提高企业的运行管理效率。希望能通过此次的理论研究,对大数据技术在生产工作当中的广泛应用起到一定促进作用。

参考文献:

[1]丁华.面向用户体验的大数据服务架构研究现状和存在问题[J].河南科技,2016(12).

[2]向志军.数据挖掘技术在高职单片机课程评价分析中的应用[J].河南科技,2016(15).

[3]邵德伟.大数据量数据库集群技术在政务云平台中应用[J].机电工程技术,2016(Z2).

数据挖掘技术论文篇8

1.web数据挖掘技术

随着信息时代的飞速发展,互联网己成为人们获取信息的重要途径。网络作为信息资源平台,为人们的日常生活提供了便利快捷的服务。然而,在大量的网络信息面前,如何不被淹没,如何从海量信息中及时发现提取有价值的信息,成为互联网信息检索面临的首要问题。面对这一挑战,web数据挖掘技术提供了一种比较好的解决方法。web数据挖掘技术包括数据库、计算机网络和人工智能技术,web数据挖掘技术使用了很多数据挖掘技术,但是它并不是传统数据挖掘技术的一个简单应用,它是一个新的研究领域。web数据挖掘技术一般分为web结构挖掘、web内容挖掘、web日志挖掘三类。web内容挖掘是指利用某种算法策略对网络资源进行抽取,以期发现有用的知识,常用的策略有总结、分类、聚类和关联分析等。web页面内部结构挖掘与外部结构(链接分析)是web结构挖掘的两个主要研究方向,内部结构挖掘应用于信息抽取、网站结构模式提取和页面分类,链接分析则主要应用于搜索引擎领域。web日志挖掘主要通过识别用户浏览模式,并通过改进web站点结构,达到用户能够更加方便浏览的目的,以此来吸引更多的用户访问站点。

web数据挖掘与搜索引擎联系紧密,校园网搜索引擎除了使用传统搜索引擎相关的理论和技术方法外,还需要新的方法和技术来满足学校师生要求,web数据挖掘的很多技术可以应用在校园网的搜索引擎中,web内容挖掘能对互联网上海量的网页信息进行总结、分类、集群、关联分析和趋势预测等。通过对网页内容的挖掘,可以实现网页的聚类和分类,能够对网络信息进行分类浏览和检索,从而提高网络信息的标引准确度,提高检索效率。

根据数据挖掘的一般方法和相关理论,可以得出web数据挖掘的流程图,如图1所示。

网络数据的收集主要是从web站点上的数据信息中提取一个数据子集,主要包括页面数据、超链接信息和用户的访问历史记录等,为数据挖掘提供资源支持。数据的预处理主要是对数据源进行组织重构和加工处理,并以此构建主题数据库,为web数据挖掘提供相应的平台。模式发现及分析是web数据挖掘最核心的部分,它主要是通过运用各种数据挖掘技术,从数据对象中发现潜在的、能被人所理解的知识模式,并最终发现描述性模式和预测性模式。

2.校园网搜索引擎系统架构设计

2.1整体框架模型设计

校园网搜索引擎系统设计以智能化为目标,最大程度上满足学校师生不同需求的查询。系统首先收集海量的网页信息,然后搜索引擎程序会自动对收集到的网页内容进行分析,并通过分词程序得到语句关键词,再利用索引来构建索引数据库。当用户通过web页面来查询索引数据库时,系统就会返回所有与检索关键词相匹配的网页。一个搜索引擎系统主要由以下四部分组成,分别是:页面采集模块、页面分析模块、索引数据库模块和信息检索模块。从功能上来说,四部分内容既相互独立,又相互联系,形成一个有机的整体。搜索引擎系统架构如图2所示。

2.2系统模块设计

本文设计的校园网搜索引擎系统与传统搜索引擎系统的主要不同之处是搜索引擎被分解为多个任务不同的专业搜索引擎,每个专业搜索引擎只搜索特定相关的信息。该搜索引擎系统主要包括5个模块。

(1)信息抓取模块:搜索引擎系统首先收集用户所要查询关键词和搜索引擎返回的查询结果,并对收集到的数据进行预处理。

(2)概念提取模块:系统从收集到的搜索结果中选取前100条数据,进行概念提取,然后将提取到的概念存入相应数据库。最后,搜索引擎系统计算概念联系度并将计算结果存储到数据库中,为后面的概念聚类做好准备。

(3)用户建模模块:系统针对用户的搜索关键字进行概念提取,从而获得用户感兴趣的相关概念,然后,根据已经建立的概念联系,确定与用户搜索关键字有联系的概念。

(4)查询概念聚类模块:系统根据用户兴趣模型建立查询概念二分图,然后使用基于查询概念的二分图聚类算法对查询和概念分别进行聚类。

(5)查询优化模块:聚类形成相似的查询和相似的概念,相似的查询用以优化查询语句,优化后的查询语句由系统提交给搜索引擎。相似的概念以搜索建议的形式提供给用户,系统根据用户兴趣模型产生聚类结果。

3.web数据挖掘技术在数字化校园中的应用

在数字化校园建设中,主要以教师和学生为主体,如何更好地协调教师和学生的关系是数据挖掘首要考虑的问题。本文以学生的数字化校园中的基本信息作为基础信息,通过对学校的各个子库的个人信息进行加工处理,运用简单的统计方法对每个子库信息进行聚合,从而得到进行数据挖掘的基本信息。

搜索引擎系统首先需要将不同的数据源集中到统一的数据仓库中,执行数据的清洗和转换操作。为了方便不同数据仓库之间的数据交换,采用统一的数据挖掘元数据模型。web数据挖掘技术利用统一的驱动程序存取数据仓库中的数据,并且采用统一的结果模型表示形式,应用程序通过统一的接口访问数据挖掘服务。数据挖掘应用程序构架如图3所示,其中Data是待挖掘数据,存放在关系数据库或文件中。Dataaccess获取文件、数据库或视图中的数据,并将数据保存到数据仓库。数据源可以来自分布式和远程数据库。Datawarehouse用来存放待挖掘的数据,Driver提供统一的数据库驱动程序,Dmt提供不同的算法为应用程序服务。数据挖掘算法(Dmm)在数据上应用所得的结果,不同Dmt之间可以相互调用数据挖掘模型,用于结果应用、评估和可视化。application是客户端应用程序,调用一个或多个数据挖掘服务,得到数据挖掘的结果模型,从而获得决策需要的信息。

web数据挖掘中,应用关联分析技术寻找网页信息库中的值的相关性,应用分类方法分析进行网页信息库中的web数据的分析,这样能够为每个类别实现数据模型建立、分类规则挖掘、从而对数据类别做出准确的描述,另外应用聚类方法对网页信息库中的记录数据进行分析,也就是对记录集合进行合理的规划并对每个记录所在的类别进行确定。这样就能精炼出一个集成度高、易于使用、冗余度地的索引数据库,方便师生的信息检索和查找。

4.结论

数据挖掘技术论文篇9

关键词:数据挖掘,XmL,关联规则,DtD

 

0.引言

2000年以后,国内外把XmL和数据挖掘结合起来的研究逐渐增多。。由于XmL广泛应用于web上,因此对基于XmL的web数据挖掘的研究越来越受到重视。研究的重点包括:XmL表达的web数据模型,基于web的半结构化数据存储模型,XmL数据查询技术等相关问题。目前对基于XmL的web数据挖掘研究大概可以分为两大流派;一是以美国为首,包括日本,新加波等国,以传统数据库技术为主要技术支撑;另一个是以德国,法国为首,包括英国等,重点研究如何对整个XmL文档进行有效的管理。

1.XmL的概述

XmL的全称为可扩展标记语言,是由互联网协会(w3C)于1998年提出和设计的,是由标准通用标一记语言SGmL中派生而来的。XmL正在逐步成为第一代web数据描述和数据交换的标准。XmL包含3个要素:DtD(文档类型定义)或XmLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。其中,DtD规定了XmL文件的逻辑结构;XSL用来描述文档如何显示,使得数据与其表现形式相互独立;XLL功能更加强大,使用XLL可以多方向链接,而且链接不再局限于页面层级。

XmL克服了HtmL的种种不足,将互联网上的文档规范化,赋予标记一定的含义,并保留了HtmL所具有的简洁、适于传输和浏览的优点,集SGmL和HtmL的优势于一身,成为下一代互联网发展的核心。XmL具备以下可扩展性、结构性、平台独立性、自描述性、灵活性和规范、简单性等优点。

2.数据挖掘概述

数据挖掘(Datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,简单地说,提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程。数据挖掘是从大量数据中提取或“挖掘”知识。

所谓知识是指概念、规则、模式、规律和约束等。知识。人们把数据看作是形成知识的源泉,通过对数据进行组织、分析、处理,然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库,也可以来自于文本数据源、多媒体数据,以及分布在web上的异构数据源。可以使用不同的方法发现知识,如数学的和非数学的方法,演绛的和归纳的方法等。发现的知识可用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门汇聚了不同领域的交叉学科,包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用,如简单查询等,提升到从数据中挖掘知识,对所得知识进行高层运用。因此,它是一种具有强大实际作用和前途的学科。

3.web数据挖掘概述

web挖掘是一项综合技术,涉及web技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发,对web挖掘的含义有着不同的理解,项目开发也各有其侧重点。我们从更为一般的角度出发,对web挖掘作如下定义:web挖掘是指从大量web文档的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么web挖掘的过程就是从输入到输出的一个映射£:C-p。

web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但是,web挖掘与传统的数据挖掘相比有许多独特之处。首先web挖掘的对象是大量、异质、分布的web文档。其次,web在逻辑上是一个由文档节点和超链接构成的图,因此web挖掘所得到的模式可能是关于web内容的,也可能是关于web结构的。此外,由于web文档本身是半结构化或无结构的,且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于web挖掘,即使可用也需要建立在对web文档进行预处理的基础之上。

web数据挖掘是从www资源上挖掘信息的过程,是对web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。目前,在该研究领域中,web挖掘一般可以分为三类,即web内容挖掘、web结构挖掘和web数据的使用挖掘。

4.基于XmL的web数据挖掘技术

基于XmL的新一代www环境是直接面对web数据的,不仅可以很好地兼容原有的web应用,而且可以更好地实现web中的信息共享与交换。XmL可看作一种半结构化的数据模型,可以很容易地将XmL的文档描述与关系数据库中的属性一一对应起来,实施精确的查询与模型抽取。。

面向web的数据挖掘是一项复杂的技术,由于web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向web的数据挖掘成了一个难以解决的问题。而XmL的出现为解决web数据挖掘的难题带来了机会。由于XmL能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决web数据挖掘难题带来了希望。。XmL的扩展性和灵活性允许XmL描述不同种类应用软件中的数据,从而能描述搜集的web页中的数据记录。同时,由于基于XmL的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XmL为组织、软件开发者、web站点和终端使用者提供了许多有利条件。

基于XmL的web挖掘分为XmL结构上的挖掘和XmL内容上的挖掘。XmL是半结构化的数据,元素的标记及其嵌套关系表示了XmL文档的结构。XmL结构的挖掘关键是对DtD或Schema的挖掘,在实际操作过程中是将每一个XmL文档的结构看作是一棵有根、有序的标一记树,在此基础上对树的挖掘。结构上的挖掘只和XmL文档结构内部有关,可依据知识发现得到XmL部的结构信息(文档类型定义XmL文档,应是结构良好的DtD),引入对有效的XmL文档的分析。XmL内容上的挖掘是指对XmL文档中起始标记和终止标记之间的文本进行挖掘。XmL内容的挖掘本质上是对标记的值的挖掘。

5.基于XmL的web数据挖掘的系统结构

系统在总体上分为三层。底层是XmL数据集成层,用XmL作为工具将相关数据进行集成、整合、抽取,形成一个有一定结构信息的原始XmL数据集,作为中间层数据预处理层的数据来源;在中间层中对XmL数据集进行数据选择、清理和规范化,产生结构化程度更高的具有丰富语义的XmL数据集,作为顶层即数据挖掘应用层的数据源;在数据挖掘应用层中有一些具体的数据挖掘应用需要将结果通过报表、即时查询、统计图等形式向决策人员展示。如图1。

图1基于XmL的web数据挖掘的系统结构

系统要解决的问题:

(1)异构数据集成问题:基于XmL的数据挖掘首先要解决异构数据的集成问题。基于XmL的数据挖掘不能仅仅从XmL文档中直接获取数据,还必须对大量的关系数据库记录、XmL文档、文本文档和eXCeL文档等进行数据挖掘。必须

利用XmL建立一个模型来描述各种各样的数据,提供给上层应用一个统一的视图,从而有可能从庞大的数据资源中获取所需的东西。

(2)半结构化信息的预处理:和传统数据挖掘的过程一样,web数据挖掘首先也要将得到的数据进行数据清洗与数据转换,即为半结构化的预处理过程。先要把不同结构的数据进行清洗,去除噪声。然后基于XmL设计,将不同结构的数据转换为XmL文档。

(3)对XmL格式数据进行挖掘:数据挖掘应用层要解决基于XmL数据集的知识发现的问题,经过预处理后XmL数据具有较高的结构化程度,但是它既不同于关系型数据库、数据仓库里的结构化数据,也不同于完全无给构。因此对这些数据的挖掘要综合和改变现有的针对结构化数据挖掘方法来进行。

6.结论

随着internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此复杂的web数据,如何从复杂的网络数据中发掘所需信息己经成为人们所关注的一个重要问题。由于XmL具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,使用户能够对web信息实施精确查询与模型抽取,因此将XmL与web数据挖掘相结合进行研究逐渐成为了数据挖掘领域内的一个新热点。

参考文献

[1]刘晓鹏,邢长征.基于weB文本数据挖掘的研究.计算机与数字工程,2005(9)76-78.

[2]郑荣茂.基于XmL的weB数据挖掘[J].韶关学院学报(自然科学版),2004.25(9):15-18.

[3]康晓兵,张二虎,吴学毅.一种XmLSChema模式到关系模式的映射算法[J]计算机应用,2004,24(5):106-108.

[4]杨彬.利用XmL技术进行weB内容挖掘.计算机与现代化,2005(11):48-50

[5]金玉玲,陈培久,裘江南.XQUeRY—一种全新的XmL查询语言.情报学报2002.8:445-449,

数据挖掘技术论文篇10

关键词:GiS空间数据挖掘可视化

中图分类号:p2文献标识码:a文章编号:1672-3791(2013)02(b)-0015-02

1空间数据挖掘的概念

空间数据包括了空间属性数据和非空间属性数据,空间属性描述了空间拓扑关系和方位、距离等关系,空间属性数据按照空间索引结构存储和查找。空间数据挖掘(SpatialDatamining,SDm)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其它模式等[1]。从空间数据中提取信息,提取的信息包含了复杂的空间关系,因此空间数据挖掘与其他数据挖掘方法上有其独有的特点。空间数据挖掘需要综合数据挖掘与空间数据库技术。空间数据挖掘可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组和空间查询的优化。

空间数据是地理信息系统的重要数据,可以是地表在地理信息系统中的二维投影,也可以是多维的立体数据。由于雷达、卫星、传感器等技术的飞速发展,空间数据的数量、大小和复杂性都在快速地增加,出现GB,tB甚至于pB级的海量数据,获取实质性有用的数据,就需要空间数据挖掘技术。所以空间数据挖掘就是处理空间数据的技术方法,是挖掘出隐藏在空间数据库中的非显性知识、空间关系等。GiS从本质说是一个空间数据管理系统,将空间数据挖掘技术应用于GiS,是将GiS中的数据转化成知识的有效方法。

1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识(knowledgediscoveryindatabase,KDD)的概念。1994年,在加拿大渥太华举行的GiS国际学术会议上,李德仁院士首次提出了从GiS数据库中发现知识(knowledgediscoveryfromGiS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GiS有限的数据变成无限的知识,使GiS成为智能化的信息系统。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会上。又出现了数据挖掘(datamining,Dm),后又相继出现了数据发掘、数据开采、数据采掘、知识提取、信息发现等。同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现,系统地研究或提出了可用的理论、技术和方法,并取得了很多创新性成果,奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础[2]。

2空间数据挖掘的流程

空间数据挖掘是空间数据库中知识发现过程的一个基本步骤。数据挖掘步骤是通过将有趣的模式提供给用户,或作为新的知识存放在知识库中这种与用户或知识库交互的方式来进行的知识发现过程的其中最重要的一步,因为它可发现隐藏的不为人知的模式。它由以下步骤组成。

(1)数据清理:通过填写空缺的值。平滑噪声数据,识别、删除孤立点,并“清理”不一致数据。

(2)数据集成:对多种数据源进行集成。

(3)数据选择:从数据库中检索与任务相关的数据。

(4)数据变换:通过汇总或聚集等操作将数据变换成适合数据挖掘的形式。

(5)数据挖掘:使用智能的方法来提取数据模式。先对数据挖掘的目标和知识类型进行确定,然后根据所需要的知识类型选择合适的挖掘算法,最后从数据库中按照选定的挖掘算法获得所需的知识。

(6)模式评估:通过某种兴趣度量来评估真正有趣的知识模式。

(7)知识表示:通过知识可视化表示技术向用户展示挖掘的知识通过对以上过程不断地循环操作,可以对所挖掘出来的知识进行不断求精和深化。

而面向GiS的空间数据挖掘的过程大致可分为:确定挖掘内容、数据获取、数据预处理、挖掘方法选择、过程处理、挖掘知识应用。具体流程如(图1)所示。

首先用户提出问题,系统接受用户的要求,将其转化为GiS数据库模块的输入参数。挖掘向导接受用户的命令,触发空间数据挖掘核心模块。用户则根据需要选择挖掘技术,对预处理后的数据进行挖掘。挖掘后的知识再通过提取反馈给用户。

3空间数据挖掘在GiS中的应用

空间数据挖掘技术与地理信息系统(GiS)的结合具有非常广泛的应用空间。数据挖掘与GiS集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GiS当作一个空间数据库看待,在GiS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GiS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GiS中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GiS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则、空间演变规则、面向对象的。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护,110和120快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

4基于GiS空间数据挖掘结果的可视化

空间数据挖掘是面向更具可视化要求的地理空间数据的知识发现过程。可视化能提供同用户对空间目标的心理认知过程相适应的信息表现和分析环境,可以考虑将空间数据挖掘过程置于可视化的环境之下。可视化与空间数据挖掘的结合促使数据挖掘经历了一个数据可视化——挖掘算法的应用——挖掘结构的验证和可视化表达——挖掘算法的进一步改进和完善的循环往复的提高过程,可视化在其中扮演着重要的角色。

而基于GiS空间数据挖掘的可视化主要表现为与GiS相关的各类地图及其各类符号和要素。GiS平台中常用的可视化方法主要包括以下几点。

(1)基本查询技术:包括地图缩放、平移、视点选取等基本的空间查询与选择技术。

(2)色彩:利用人们对色彩的视觉敏感程度很高的特点,是用色彩来反映数据的变化趋势(如地貌中的分层设色)、突出反映某些分布规律或者数据的本身特征(不饱和数据表示不确定性)等。在交互可视化中应该给予用户充分的自由来选取各种色彩模式用于描述数据,用户可以任意调整色相、亮度和饱和度等,系统环境也应该提供一些缺省或者是某些比较有效的色彩模式供用户选择。

(3)统计图技术:统计图是最常用的可视化技术,用于显示数据集的统计和信息,统计图包括散点图、箱图、平行坐标图、柱状图、星形图、轮廓图。这些统计图在交互可视化环境中一般同地图和其他数据视图相连,成为数据整体可视化的一部分,还可以使用聚焦、高亮、色彩来加强其可视化和交互能力。

(4)专题图可视化技术:可以通过系统内置的地图制图知识在地图上自动表达数据信息,这样可以减轻用户这方面的负担以及避免由于地图知识的缺乏而造成的不适当表达,以便用户投入主要精力来进行数据探索分析。专题图可视化技术协助用户交互式地探索空间数据,通过一些通用的、与领域无关的法则的形式。自动地选择相应的一些表达式来说明诸如属性数据类型、取值范围和属性字段之间的关系。专题图可视化还可用于交互式的可视化数据分析,并提供多种制图表达方法和工具以便用户更易于表达隐含信息。

(5)其他交互技术:一些特殊的交互方法,如虚拟现实、触摸交互、声音交互等。

5基于GiS空间数据挖掘存在问题

基于GiS的数据挖掘主要是空间数据和属性数据一体化的挖掘模式,与按传统的通过查询方式获得的知识相比,它是一种更深层次的数据处理分析。目前在这一领域的研究取得了一些成功,但未来的发展中,还有很多理论和方法有待进一步研究。

(1)改进挖掘的算法和效率:基于GiS数据挖掘这一块,因为有它自身领域的知识,既增大了挖掘算法的搜索空间,也增加了盲目搜索的可能性。因此要结合GiS数据和领域本身的特点改进算法,提高算法的效率以及设计出更好的相关挖掘算法。

(2)综合式挖掘模式:在面向GiS挖掘其隐含知识规则方面,采用某种单一的方法往往挖掘出的知识甚微,因此需要通过几种挖掘技术并行的综合挖掘模式挖掘,才能从大量的GiS数据中挖掘出更多更有用的知识。(3)G1S软件、空间数据库与数据挖掘技术的集成:当前的GiS软件和空间数据库还不能有效地支持数据挖掘,而是通过先提取相关数据,再利用挖掘技术对数据进行挖掘,这种方式可以说增大了挖掘的工作量,降低了挖掘的效率。所以未来的研究还会向实现三者的集成应用方面发展。

6结语

空间数据挖掘技术对GiS数据进行更高层次的分析,能从空间数据库中抽取隐藏的、为人们感兴趣的空间模式和特征、空间和非空间数据之间的概要关系以及其它概要数据特征。将可视化技术作为一件GiS数据挖掘工具,可以利用可视化技术丰富的图形表达能力与高度的交互机制,充分调动用户的主观能动性,融入用户的知识与经验,真正实现探索性数据分析。目前,有关这方面的研究才刚刚起步,对它的研究重点应放在构建空间数据挖掘的系统的理论框架上。如何将GiS与空间数据挖掘有效集成还有待进一步深入研究。

参考文献