数据挖掘学习计划十篇

发布时间:2024-04-25 01:45:18

数据挖掘学习计划篇1

[关键词]数据挖掘信息系统决策支持系统

目前,随着计算机技术和通信技术的不断进步,制造型企业的信息化进程也不断前进,许多企业由从前各部门独立开发的信息系统,上升到现在的eRp,电子商务等先进综合的管理信息系统的应用,极大地提高了企业的核心竞争力,但这些系统基本上是为业务流程自动化而设计的oLtp应用,由此产生大量的业务数据,这些数据并不是各个业务部门管理人员所需要的决策支持信息,因而造成了“数据丰富,信息贫乏”的现象。如何从这些丰富的业务数据中获得知识,帮助制造型企业的各级管理人员进行科学的决策,让企业在日益激烈的市场环境下,能迅速地适应市场的需要并快速地做出响应,这成为了企业信息化工作的当务之急。

一、数据挖掘

1.数据挖掘简介。数据挖掘就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。它是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘涉及使用各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型,并确定与所分析数据的特征最符合的模型。在企业信息化中应用数据挖掘技术就是利用计算机技术高度自动化地分析企业信息化过程中积累的大量数据,做出归纳性的推理,从中挖掘出潜在的模型,预测客户的行为,帮助企业的决策者调整市场策略和生产计划,减少库存的风险,做出科学的决策。

2.数据挖掘的基本任务。根据发现知识的不同,数据挖掘的任务主要分为以下6类:(1)关联分析,揭示隐藏在数据之间相互关系的一项数据挖掘任务。(2)序列发现,是指确定数据之间与时间相关的序列模式,利用该模式可对未来的相关行为进行预测。(3)聚类分析,是指依赖样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相似,而属于不同群组的样本相异的一组方法。(4)分类,是指找出一个类别的概念描述,它代表了这个类别数据的整体信息,一般用规则或决策树模式表示。(5)偏差检测,就是从数据分析中发现某些异常情况是否重要,从而获得有用的知识。(6)预测,就是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。

3.数据挖掘方法和技术。数据挖掘方法是由人工智能、机器学习的方法发展而来,同时结合传统的统计分析方法、模糊数学方法、科学计算以及可视化技术,以数据库为研究对象的方法和技术。数据挖掘方法和技术可分为六类:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法和可视化技术。

(1)归纳学习方法。归纳学习方法分为基于信息论的方法和基于集合论的方法。①信息论方法,是利用信息论的原理在数据库中寻找信息量最大的属性来建立属性的决策树。②集合论方法,是根据数据库中各属性的元组集合之间关系来建立属性间的规则。主要用于分类问题。

(2)仿生物技术。仿生物技术典型的方法是神经网络方法和遗传算法。1)神经网络方法:模拟人脑神经元结构,依据人脑的工作方式进行建模的一种方法,其在半结构化和非结构化问题的分类及预测方面具有较大的优势。2)遗传算法:是模拟生物遗传进化过程,对选择、交叉及变异过程建立数学算法。遗传算法已在优化计算和分类机器学习方面发挥了显著的效果。

(3)公式发现。公式发现是通过在工程和科学数据库(由实验数据组成)中对若干数据项(变量)进行一定的数学运算,求得相应得数学公式,并用其来概括大量数据的方法。

4.统计分析方法。统计分析是通过对总体中的样本数据进行分析,得出描述和推断该总体信息和知识的方法,主要包括6类方法:常用统计,相关分析,回归分析,假设检验,聚类分析,判断分析。

5.模糊数学方法。模糊数学是反映人们思维的一种方式。将模糊数学应用于数据挖掘的各项任务中就形成了模糊数据挖掘。利用模糊集合论理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、模糊分类。

6.可视化技术。可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,便于揭示数据中内在本质以及分布规律。

二、数据挖掘技术在制造型企业信息化中应用分析

目前制造型企业信息化建设都以eRp理论为标准。eRp(enterpriseResourceplanning)企业资源计划是由美国GarterGroupinc.咨询公司首先提出的,其主要宗旨是对企业所拥有的人、财、物、信息、时间和空间等综合资源进行综合平衡和优化管理,面向全球市场,协调企业各管理部门,围绕市场导向开展业务活动,使企业在市场竞争中全方位地发挥足够的能力,从而取得最好的经济效益。概括地说,eRp是建立在信息技术基础上,利用现代企业的先进管理思想,全面地集成了企业的所有资源信息,并为企业提供决策、计划、控制与经营业绩评估的全方位和系统化的管理平台。基于eRp理论的信息系统主要包括生产计划管理、质量管理、设备管理、采购管理、库存管理、销售管理、客户关系管理、成本管理和财务管理等几个主要的功能模块,同时各模块的信息被全面地集成在同一数据库管理系统中,以便各功能模块能方便地使用其他模块的信息。

1.客户关系管理中的数据挖掘技术应用。eRp理论强调面向市场,以达到最大的客户满意度为导向来决定整个企业的生产经营活动。因此在该模块中可以根据客户信息及客户购买产品的信息利用聚类分析方法,对客户的购买行为进行分类,从而获得哪些客户群对哪些产品有偏好,利用关联分析方法,分析客户购买了某种产品后是否还会购买相关的其他产品,便于营销部门制定针对性的营销计划,生产计划部门制定出有针对性的生产计划。

2.销售管理中的数据挖掘技术应用。销售管理系统主要完成制订销售政策,制订销售计划,合理分配分销资源(人员、库存与管理网络的营运),控制销售回款等工作。

(1)销售趋势及销售价格分析:根据历史销售数据利用神经网络、回归分析和时序数据挖掘等技术预测未来的销售趋势,帮助管理人员制订销售政策和销售计划,合理分配分销资源。

(2)信用评估和防止欺诈分析:利用神经网络、决策树等数据挖掘方法进行客户信用的分析,帮助管理人员控制销售回款。

3.库存管理中的数据挖掘技术应用。库存管理系统主要对计划存储、流通的有关物品进行相应的管理以满足生产和销售的需要。根据仓库信息及销售和生产计划利用神经网络、回归分析和决策树等数据挖掘方法预测未来库存,帮助管理人员进行库存量的控制。

4.采购管理中的数据挖掘技术应用。采购管理系统主要实现接受采购指示,选择供应商,下达订单,订单跟踪和验收货物等管理工作。在该子系统中,可以根据供应商的历史数据和采购物品的历史信息利用神经网络、决策树和时序数据挖掘等数据挖掘方法对供应商进行信用分析,进行物品供应的数量、价格以及供应时间的分析,帮助管理人员选择供应商及下达订单。

5.设备管理中的数据挖掘技术应用。设备管理系统通过对企业的设备与仪器台账的基本信息、运行情况、保养情况、故障和事故情况处理、设备使用部门的变动情况及有关备件管理等信息的管理,使各级部门能及时地了解设备从安装、使用、变动到报废等过程的信息。

6.质量管理中的数据挖掘技术应用。质量管理系统主要实现质量检验与控制,质量分析等功能。在该子系统中,可以根据质量标准和质量检验的历史数据,对质量问题进行聚类分析形成不同的分类,然后运用决策树技术形成规则,帮助系统对质量问题进行自动分类;利用关联分析方法分析产生质量问题的关联因素,帮助管理人员进行质量控制。

7.生产计划管理中的数据挖掘技术应用。制造型企业涉及的有关生产计划分为三种:综合计划(是销售计划与生产规划计划的综合考虑),主生产计划及物料需求计划,其中综合计划决定了主生产计划,主生产计划决定了物料需求计划。

三、基于数据挖掘技术的企业信息管理决策支持系统

基于数据挖掘技术的企业信息管理决策支持系统,其目的是从业务系统积累的大量数据中发现对企业各级管理人员所需的决策支持信息,并将其展现给系统的使用者。数据挖掘被认为是知识发现过程的一个特定步骤,它用专门算法从数据中抽取合适的模型,这些模型经过评估后成为有用的知识,人们使用这些知识对现有的业务数据进行分析和对未来的业务进行预测,从而达到决策支持的目的。基于以上讨论,一种基于数据挖掘技术的制造型企业信息管理决策支持系统基本结构框架如图所示。

本系统由人机交互模块、决策支持模块、模型管理模块、模型库、知识库和业务数据库或数据仓库组成。

1.业务数据库或数据仓库。业务数据库是企业业务管理信息系统建立的数据库,数据仓库是将分布在企业中多个业务管理系统中的数据进行抽取、清洗、转换,并按决策主题的需要进行重新组织,形成面向主题的、集成的、稳定的、不同时间的数据集合。它们都可作为数据挖掘的数据源。

2.模型管理模块。数据挖掘模型的构造是一个不断调整的过程,例如一些数据挖掘方法,需要利用样本数据进行有指导或无指导地自学习过程才能得到可用的知识模型,同时知识模型也并不是一成不变的,随着时间的推移,数据的变化,需要进行调整以适应新的环境。该模块主要用于构造和维护数据挖掘模型,对数据挖掘模型进行评估,最终得到用户可以使用的知识模型。

3.决策支持模块。根据用户的需要,在决策支持模块中,利用相应的知识模型,对相应的数据源进行分析和计算,并将结果通过各种可视化的工具和图形用户界面展现。

4.模型库。模型库用于存储实现模型算法的子程序、模型的结构参数文件、有关的样本数据文件、学习结果文件及学习误差文件等等。

5.知识库。知识库中包含了在解决问题时所用的知识。即那些既不能用数据表示、也不能用模型描述的专门知识和历史经验。知识库中除了专家提供的知识,还包含在数据挖掘过程中得到的知识。知识库中的知识可对数据挖掘过程不断地提出指导和改进,同时对于挖掘结果和分析结果的有价值信息也会及时地输入知识库中存储,还可以向前台的人机交互界面直接输出知识模式。

6.人机交互模块。人机交互模块是决策支持系统的人机交互接口,它负责接收和检验用户的请求,为决策者提供信息收集、问题识别以及模型构造、使用、改进、分析和计算等功能。

本文在介绍数据挖掘概况的基础上,讲述了这门技术在制造型企业信息管理系统中应用的可能性及其应用特点。数据挖掘技术作为一门新兴技术为制造型企业信息化管理提供决策支持提供了一种有效、可行的解决方案。随着数据挖掘技术和网络技术的发展,数据挖掘技术在制造型企业信息管理中的作用将会推向一个更高的层次,分析、决策及知识处理会从一台机器上的集中式处理,变成在网络环境下的分布、或分布再加上并行的处理方式。这些变化将会为制造型企业信息化作出贡献,为企业带来巨大的经济效益。

参考文献:

数据挖掘学习计划篇2

关键词:学校教学;数据挖掘技术;应用

中图分类号:G632文献标识码:a文章编号:1009-3044(2012)17-4177-03

1数据挖掘技术

数据挖掘始于上世纪90年代,是一门发展速度较快的交叉学科,数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科,数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则,数据挖掘过程又称为知识发现,基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多,主要包括数据库、图像等各种结构化和非结构化的信息、文本等,有时无法直接对其进行分析,因此要通过以下步骤进行:第一,选择数据。数据挖掘过程中所有需要的数据来源可能都不相同,可以通过不同的异数数据源来获取数据;第二,预处理。在初始数据中,会有一些不符合形式处理或是出现偏差的例外,因此要对这些数据进行修正和剔除,为后期数据处理的正确性奠定基础;第三,变换。将不同数据源获得的数据转换为同一种格式,可以利用编码或是其他一些方式来简化表示形式;第四,数据挖掘。利用数据挖掘算法,对变换之后的数据进行挖掘并产生期望的挖掘结果;第五,解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。

数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R.agrawal,Hnielinski,Swam等人在1994年提出的apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。

决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。

通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。

2常用的数据挖掘技术

2.1关联规则

关联规则是指各个数据项之间相互依存的关系,发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则,在大型数据库中,每个字段之间都存在着多种多样的关系,且都隐藏在数据库包含的信息中,关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为:令i={i1,i2,i3,……,in}为属性可能取值,也称为数据项集,模型中ik(1≤i≤n)为数据项,i中的元素个数即为数据项集的长度,如果长度为n的数据项集,便成为n维数据项集(n-item-set)。例如关联规则的蕴含式为XY,且X,Y包含于1,且X∩Y=ψ,则规则XY在事务集合D中成立。一般情况下,用置信度和支持度来描述规则属性:置信度指如果D中包括C%的X事务,且同时也包括Y,则C是关联规则XY的置信度,置信度即为出现了数据项集X的事务中,Y相集同时出现的改了,置信度C%=thenumberoftransactions(X∩Y)/thenumberoftransaction(X)。换言之,只要数据库中出现了X,那么Y出现的可能先变为C%;支持度指如果D中有S%的事务既包括数据项集X,也包括数据项集Y,那么S%即为关联规则XY的支持度,支持度S%=thenumberoftransactions(X∩Y)/thenumberoftransactions(D)。支持度越大,便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则,需要给出两个阈值——最小支持度和最小置信度。关联规则对给定事务集合D中所有产生满足最小支持度及最小置信度的关联规则进行挖掘,可将关联规则挖掘分为两个子问题:1)根据最小支持度,找出在数据集D中所有出现的频繁项目集,此为关联规则挖掘的中心问题,也是衡量关联规则算法的一项标准;2)根据频繁项目集以及最小置信度来形成关联规则。

2.2决策树算法

决策树算法是较为常用、直观、快速的一种分类方法,决策树算法即创建一个树状结构,根据不同层次对结点进行分类,每个节点都对应一个样本集,根节点要对应整个样本集,内部节点应对应一个样本集,叶节点对应一个类标志,然后根据结点包含的样本属性进行测试,并依据测试结果,将样本集进行划分,划分出两个或两个以上的子集,每一个子集生成一个分支,并用测试属性值来对分值进行标识,叶节点包含一个类标志,表示与之相对应的样本集类别。常用的决策树计算方法有:1)iD3算法,此为最著名的一种决策树算法,采用的是贪心搜索选择分裂的特征和信息理论;2)C4.5算法,此为iD3算法的改进,也是基于信息增益比的特征选择策略以及最小描述长度的剪枝方法的首次提出,增加了缺失数据以及对连续性属性的处理策略,并对分类规则的推导方法进行提出,对连续性属性采用的是安全搜索二分法,对于离散型属性,采用的是多分法;3)eC4.5算法,此种算法是C4.5的改进算法,在效率上较C4.5有一定的提高。除此之外,决策树算法还包括很多其他算法,在处理不同的数据库数据时,要结合数据库特征来选择算法。

2.3聚类分析算法

一般情况下,人们对事物进行认知采用将认知对象进行分类的方法,分为同一类的事务一般都具有较多的相似特征,聚类的任务即在没有训练数据样本时,根据对象自身相似性将一组对象划分成为一系列具有意义的子集。经常使用的聚类划分方法为:K-means算法、pam算法以及CLaRa算法和CLaRanS算法等,较为经典的聚类分析算法为K-means和扩展算法,即将对象D划分为一组聚类{C1,C2,……Ck},始终K是要得到的聚类个数,此种算法将一个对象最多分为一个聚类,每一个聚类都是全体对象的子集之一。聚类指本着找到一组聚类中心及隶属矩阵的目的,让目标函数值趋近于最小,因此为了能够解决函数值最小的问题,可以采用K-means中的爬山算法,即首先随机选择K个初始聚类中心,将每一个对象都分配给离它的据点,得到一组聚类,然后对当前每一个聚类中心进行计算并作为新聚点,将每个对象重新进行分配,分配要离对象最近的聚点中,如此循环计算,直到满足终止条件位置。

3数据挖掘技术在学习特征分析中的应用

在现代教育理论的指导下,教学设计是一套能够促进学生学习、发展的系统化程序,也是在教学问题求解过程中,侧重和问题求解中方案的决策、寻找过程,其中,学习者的学习特征分析是重要的组成部分之一,我们所说的学习特征,即学生的学习风格、习惯、准备状态等,虽然和具体学科的内容并没有直接联系,但是对教学者的内容组织、选择,教学方法的选择等都能够产生一定影响,因此通过对学习者的学习特点进行分析,能够明确学生的初始能力,从而确定下学习的起点,为选择教学内容、方式方法提供参考。在利用数据挖掘技术对学习者学习特征进行分析的过程中,首先要对于学习者相关的信息和数据进行收集并整理,然后本着提高学习能力、规范学习行为、帮助学习者的目的来选择数据挖掘的方法,例如关联规则法或是决策树法,根据对学习者信息和数据的分析,能够挖掘到学习者的学习风格、习惯等,通过与教学专家进行交流或寻求帮助,能够利用数据挖掘法挖掘到的规则来确定质量的好坏,可以采用聚类分析法来对学生进行分类,然后根据结果对学生再次进行关联规则法的挖掘,或是决策树法的挖掘,便能够了解学生未来发展方向,指导学生进行专业或课程的选择,对具有潜力的学生进行激发,提供一些锻炼和学习的机会,有针对性的、实际性的进行教学,从而培养出不同层次、不同方面的人才。

4数据挖掘技术在教学决策中的应用

利用数据挖掘技术来辅助教学过程中的决策,主要表现在以下方面。

4.1合理设置课程

合理设计课程,即将课程之间的结构安排合理,包括开设的课程、课程的先后顺序、课程之间的衔接等,通过将课程进行合理设置,能够让学生通过学习课程,具备相应的知识和能力。由于课程的开设本身就具有一定程度的潜在关联和顺序,因此通过数据挖掘技术能够将潜在关联、顺序进行明确,从而找到设置课程的依据,调整课程之间的顺序,达到最佳教学效果。

4.2改进教学方式方法

在教学过程中,教师会通过运用各种方式方法来完成教学任务,并达到最佳教学效果,但是何种教学效果才算是最优效果,何种方式方法能够达到最优效果还尚不明确,因此要通过对积累的大量教学数据进行数据挖掘,来明确教学的方式方法及效果。利用数据挖掘技术的分类和聚类方法首先对学生的具体情况进行分析,然后利用回归线和关联规则的方法来判断不同专业、特征的学生应当采取怎样的方式方法进行教学,以及教学内容的深度和广度等,让教师能够通过数据挖掘技术,了解不同教学对象应当使用的教学方法、内容、手段等,用发展的眼光来看待教学方法,不断更新教学手段,激发起学生的学习兴趣,从而提高教学质量。

4.3合理化考试

考试作为教育教学活动中的重要环节,能够检验学生知识和能力的掌握理解程度,随着教育改革进程的不断加快,考试也应当随着教育的不断发展而变化,教师在教学过程中不能因为考试而教学,也不能因为教学而考试,考试仅仅是教学活动中的一个组成部分。考试的内容和方法要根据教学的目标、内容、方法来确定,因此想要让教学和考试能够和谐发展,相互促进,共同提高,就必须要利用数据挖掘技术来辅助教学决策,提高评价、考试的合理化。

5数据挖掘技术在教学评价中的应用

所谓教学评价,即根据教学目标中的要求,通过测量的工具或方法对学生学习结果进行量化描述,并对量化结果进行价值判断。教学评价是教学管理中的重要环节之一,也是引导教育、利用教育成果、促进教育发展的重要保障,但是在传统的教学评价方法中,有许多缺陷,主要表现为:第一,主观因素过多,无法真实反映出客观实际问题,由于教学管理部门采用的评价手段并不全面,因此获得的教学评价数据也并不充分,多数教学管理部门都依据经验来进行评价,让自身的主观因素来决定评价的结果;第二,内容和形式过于简单,无法反映出教学中深层的问题,在内容方面,统计出来的数据不够全面,直接或间接的影响教学效果的因素,如学生的基础、教学的环境、课程的设计等都没有表现出来,且在形式上也较为单一,多采用学生打分、网评、教师互评、考试成绩等,因此,制定评估指标时,也忽视了对以往数据中隐藏信息的利用,导致教学评估评价的制定没有历史依据,仅仅是单纯某次评估的结果,无法反映出分析数据的结果,以及教学过程中存在的问题;第三,无法起到教学评价应当具有的作用,通常来讲,教学评价仅仅为了评优、晋升等活动的依据,但是实际上,教学评价的作用远不仅如此,客观的、良好的教学评价能够在教学过程中发挥出积极的、正面的作用,并能够在整体上调节、激励、促进、控制教学活动的进行,保证教学活动能够实现最终目标。因此,通过数据挖掘技术对学生成绩、基本信息、评价信息中的数据进行处理,能够进行深层的数据分析,并发现各因素之间的关联性关系,从而找到隐藏的规律以及对教学效果产生影响因素之间的关系,综合的评定、评价教学成果,保证评价的全面、多元、科学、可靠以及客观公正,促进教学水平和质量的整体提高。总之,建立起合理的教学评价体系,能够强化学校教学管理,提高教学质量,促进教学基本建设,促进专业课程建设,促进师资队伍建设,从而提高学校凝聚力,增强学校竞争优势。

6结束语

综上所述,我们可以通过利用数据挖掘技术来明确各个要素之间的隐藏关联关系,通过将数据挖掘技术应用在学校教学中,能够挖掘学习者的学习特征、辅助教学决策、帮助教学评价。笔者在对数据挖掘技术进行分析和研究的基础之上,首先对两种常用的数据挖掘技术——关联规则和决策树进行叙述,然后针对数据挖掘技术在学校教学中的应用提出一些个人观点,相信在不久的将来,数据挖掘技术能够代替以往传统的数据分析技术,帮助学校教育适应现代化教育的潮流,紧跟现代化教育的脚步,提升学校教学水平。

参考文献:

[1]李瑞林.数据挖掘技术在教学过程中的应用[J].制造业自动化,2010,9(73).

[2]唐仕敏.数据挖掘技术在高校教学中的应用[J].产业与科技论坛,2011,1(38).

数据挖掘学习计划篇3

关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势

中图分类号:tp39文献标识码:a文章编号文章编号:16727800(2013)0010013503

作者简介:王梦雪(1989-),女,成都理工大学信息科学与技术学院硕士研究生,研究方向为计算机网络与技术。

0引言

数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着信息技术的迅速发展,各行各业都积累了海量异构的数据资料。这些数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要将这些数据转化成有用的信息和知识,从而达到为决策服务的目的。数据挖掘分析得到的信息和知识现在已经得到了广泛的应用,例如商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。本文主要介绍了数据挖掘的几种主要算法及其改进,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势[1]。

1研究背景

1.1数据挖掘

目前数据挖掘是人工智能和数据库领域的研究热点,数据挖掘是发现数据库中隐含知识的重要步骤。数据挖掘出现于20世纪80年代末,早期主要研究从数据库中发现知识(KnowlegdeDiscoveryinDatabase,KDD),数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议[2]。数据挖掘作为一种多学科综合的产物,综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,自动分析数据并从中得到潜在隐含的知识,从而帮助决策者做出合理并正确的决策。

1.2数据挖掘对象

数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web数据,此类包含半结构化数据甚至是异构型数据的数据源[2]。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[1]。

1.3数据挖掘功能

目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。

1.4数据挖掘过程

数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减,数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性,在数据准备阶段可以消除在挖掘过程中无用的数据,从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法,例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,然后对数据进行分析,从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型[3]。

2数据挖掘主要方法

2.1决策树法

决策树法是数据挖掘的分类功能中一种比较常用的方法。决策树法起源于概念学习系统CLS,然后发展到iD3方法,iD3算法是由Quinlan首先提出,该算法是以信息论为基础,以信息熵和信息增益度为衡量标准。iD3算法的主要思想是:首先计算各属性的信息增益,然后选取具有最高增益的属性作为给定集合的测试属性。所以造成iD3用信息增益选择属性时偏向选择取值多的属性,但是取值多的属性不一定找到最优解,为了克服此问题,出现了改进算法——C4.5算法[4]。C4.5算法不但克服了iD3偏向选择取值多的属性这一缺点,还实现了对连续属性的离散化处理和对不完整数据的处理。虽然C4.5算法在速度和预测精度等方面占有优势,但是由于C4.5在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,导致该算法在性能方面较为低效。针对C4.5算法效率不高的问题,很多学者提出了针对改进措施:一种有效的C4.5的改进模型R-C4.5,该决策树模型通过合并分类较差的分支,减少了无意义的分支进一步的划分,有效避免了碎片的产生,在保持模型预测准确率的同时,有效改进了树的健壮性[5]。而从C4.5在连续值属性离散化方面的局限性来看,C4.5算法在对连续值属性进行离散化处理时,为了找到较好的划分点,C4.5算法需要测试所有潜在的划分信息增益,这样就大大降低了该算法分类的效率。基于Fayyad和irani对C4.5算法的改进,调整了其对连续值属性惩罚的基础,指定一个阈值a,通过a值的判定与增益率的判定,决定是否继续构造节点[6]。此外,考虑到有新样本添加到数据库中的情况,按照C4.5算法,需要对所有的样本进行重新学习,这样会造成大量时间的浪费,所以在此提出一种增量学习方法,最大限度地保留决策树中的原本分支及分类结果,减少了计算量[7]。

2.2关联规则法

关联模式中最著名的是apriori算法,它是由R.agrawal等人首先提出来的[8],其算法思想是:首先找出频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则。最典型的例子就是沃尔玛尿布和啤酒事件,在此例中,商家就是利用统计这两种商品在一次购买中共同出现的频数,将出现频数多的搭配转化为关联规则[9]。apriori算法的实现是通过对数据库D的多次扫描来发现所有的频繁项目集。在每一次扫描中只考虑具有同一长度的所有项目集,在进行第一次扫描中,apriori算法计算D中所有单个项目的支持度,生成所有长度为1的频繁项目集;在后续的每一次扫描中,首先以K-1次扫描所生成的所有项目集为基础产生新的候选项目集,然后扫描数据库D,计算这些候选项目集的支持度,删除其支持度低于用户给定的最小支持度的项目集;最后,生成所有长度为K的频繁项目集。重复以上过程直到再也发现不了新的频繁项目集为止。由此可见,若要提高apriori算法的效率,可以减少对数据库的扫描次数或者减少不必要的频繁项目集的生成[10],对apriori算法的改进主要方法有:①基于划分的方法:其基本思想是:对于整个交易数据库而言,如果一个项集是频繁项集,那么它必然有这样的结果,即至少在一个分割的部分内它是频繁的;②基于抽样的方法:首先从数据库中抽取一个样本并生成该样本的候选项集,当然希望这些项集在全局数据库中是频繁的,在接下来的一次扫描中,算法将统计这些项集确切的支持度以及负边界的支持度。如果在负边界中没有一个是频繁的,那么算法将找到所有的频繁项集,否则,负边界中的项集有可能是频繁项集;③增量更新方法:其基本思想是使用该技术来对所发现的频繁项集和相应的关联规则进行维护,以便在数据库发生变化时避免对所有的频繁项集和相应的关联规则重新进行挖掘分析,即只对发生变化的那部分数据进行关联分析;④概念层次的方法;⑤基于散列和压缩技术的方法[11]。所以也有很多学者对apriori算法进行了改进,例如,对apriori的改进算法aprioritid算法,在aprioritid算法中仅在第一次扫描时用事务数据库D计算候选频繁项目集的支持度,其他各次扫描用上一次扫描生成的候选数据库D’来计算候选频繁项目集的支持度,减少了i/o的操作时间,提高了算法的效率[8],此外,在对apriori的改进算法中,基于新的数据结构和改进了的产生候选集的连接方法,也实现了对事物挖掘上优于apriori算法的效率[12]。针对apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:Fptree频集算法。Fptree频集算法采用分而治之的策略,第一遍扫描的过程中把数据库中的频集压缩进一棵频繁模式树(Fptree),同时依然保留其中的关联信息,随后再将Fptree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘,当原始数据量很大的时候,才可以结合划分的方法,使得一个Fptree可以放入主存中,实验表明,Fpgrowth对不同长度的规则较之apriori算法有巨大的提高。

2.3神经网络法

神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺点,但其对噪声数据的高承受能力和低错误率,神经网络具有较好的并行性,这些优点是其他方法所不及的,而且各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘的应用中越来越受到大家的青睐[13]。其中使用较为广泛的有多层前馈式(multilayerfeedforward)神经网络和后向传播(backpropagation,Bp)神经网络。多层前馈式神经网络迭代学习用于元组类标号预测的一组权重,而Bp神经网络搜索一组权重,这组权重可对数据建模,使得神经元组的网络类预测和实际类标号之间的均方距离最小,可用于语言综合、语音识别、自适应控制等[14]。现在已经提出来一些神经网络方面的数据挖掘算法改进,用以弥补神经网络结构复杂、网络训练时间长、结构表示不易理解等不足,比如,提出的基于模糊神经网络的数据挖掘算法,把模糊理论和神经网络结合起来构造、训练模糊神经网络[15]。

3研究现状

随着海量数据的增加,大数据时代的到来,导致人们对数据的研究和利用越来越多,其中数据挖掘技术的不断进步和发展也给整个世界信息的发展带来了许多成果。在科学学领域方面,先进的现代化科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。天文学上有一个很著名的应用系统——SKiCat,这是第一个相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功的应用之一。目前,科学家已利用SKiCat发现了16个新的极其遥远的类星体。在市场营销方面,条形码技术在商业上的普遍使用使得很多行业每天都积累了大量数据,从市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是有很大帮助。在金融投资方面,目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测。数据挖掘技术还可以应用在甄别诈骗上,进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特征,这样当某项业务符合这些特征时,可以向决策人员提出警告。这方面比较成功的系统有FaLCon和FaiS系统。在web应用上,世界上最强大的搜索引擎Google相比其他很多搜索引擎,它的搜索结果更让人满意,其中Google使用的搜索算法主要是pageRank算法,在2001年9月被授予美国专利,Google的pageRank是根据网站的外部链接和内部链接的数量和质量两衡量网站的价值。

4数据挖掘发展趋势

现今,数据挖掘的发展趋势主要在以下几个方面:

数据挖掘语言的标准化:语言的标准化对于数据挖掘系统的开发和数据挖掘技术的普遍使用是至关重要的。其可改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

数据挖掘的可视化:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。

分布式数据挖掘:分布式技术的到来为日益增长的数据提供了有力支持,而分布式数据挖掘中将分布式技术和数据挖掘技术的结合,也使对分离数据库的可协作数据挖掘工作开发了一个重要领域。

数据挖掘与数据库系统和web数据库系统的集成:数据库系统和web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。

挖掘复杂数据类型的新方法:挖掘复杂数据类型是数据挖掘的重要前沿研究课题,也有人称复杂类型的数据挖掘是“下一代数据挖掘”。伴随着数据的增多,需要处理的数据类型也变得越来越复杂,例如数据流、时间序列、时间空间、多媒体和文本数据,虽然现在在很多复杂数据类型的挖掘方面取得了一些进展,但是在应用需求和可用技术之间仍然存在较大的距离。

数据挖掘中的隐私保护和信息安全:随着信息技术的发展,越来越多的数据涌入了网络,其中包括大量电子形式的个人信息,而挖掘技术的发展和科技的更新,在相反的一面上也使大量的个人信息受到了威胁,因此保护隐私的数据挖掘方法愈显重要[16]。

5结语

internet的迅猛发展使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾也越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,而数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的。数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,数据挖掘技术也被越来越多的行业和领域所采用,并取得了很好的效果。

参考文献:

[1]王惠中,彭安群.数据挖掘研究现状及发展趋势[J].工矿自动化,2011(2).

[2]潘有能.XmL挖掘:聚类、分类与信息提取[m].杭州:浙江大学出版社,2012.

[3]王桂芹,黄道.数据挖掘技术综述[C].全国第18届计算机技术与应用(CaCiS)学术会议论文集,2007.

[4]李会,胡笑梅.决策树中iD3算法与C4.5算法分析与比较[J].水电能源科学,2008,26(2):129132.

[5]刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报:自然科学版,2006(46):9961001

[6]刘佳,王新伟.一种改进的C4.5算法及实验分析[J].计算机应用与软件,2008,25(12):260262.

[7]程龙,蔡远文.数据挖掘C4.5算法的编程设计与增量学习改进[J].计算技术与自动化,2009,28(4):8387.

[8]颜雪松,蔡之华.一种基于apriori的高效关联规则挖掘算法的研究[J].计算机工程与应用,2002(10):208212.

[9]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246251.

[10]罗可,吴杰.一种基于apriori的改进算法[J].计算机工程与应用,2001(22):2022.

[11]陈燕.数据挖掘技术及应用[m].北京:清华大学出版社,2011.

[12]刘华婷,郭仁祥,姜浩.关联规则挖掘apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146149.

[13]刘钊,蒋良孝.基于神经网络的数据挖掘研究[J].计算机工程与应用,2004(3):172174.

[14]毛国君、段立娟.数据挖掘原理与算法[m].北京:科学出版社,2009.

数据挖掘学习计划篇4

【关键词】高校;数据仓库;成绩管理;教学质量提高;应用

一、学生成绩管理的现状

随着高校办学规模的不断扩大以及学校专业的不断增多,使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

二、学生成绩管理的作用

在高等学校的发展过程中,教学质量一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性地为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。

三、数据挖掘技术成绩管理分析

数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。

1、学生成绩分析

学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。

2、考试题目优化

考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。

3、教学评价

评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

4、教学方法选择

不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。

5、课程合理设置

许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。

6、学生特征挖掘

通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

四、结语

综上所述,随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能够再满足学校的实际应用需求,只有设计更为有用的、能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

【参考文献】

[1]张兴科,王浩.通过数据挖掘技术预测学生学习成绩[J].科技信息(科学教研),2007(22)198-206.

[2]李雪燕.数据挖掘在高校成绩管理中的研究和应用[J].计算机与数字工程,2011(07)267-278.

[3]曲萍.数据挖掘技术在高校学生成绩管理中的应用研究[J].网络与信息,2010(04)287-293.

数据挖掘学习计划篇5

【关键词】教学质量;数据仓库;成绩管理

一、学生成绩管理的现状

随着高校办学规模的不断扩大以及学校专业的不断增多,均使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展拥有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能够再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。

二、学生成绩管理的作用

在高等学校的发展过程中,教学质量,一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性的为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。

三、数据挖掘技术成绩管理分析

数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。

(一)学生成绩分析。学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。

(二)考试题目优化。考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。

(三)教学评价。评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

(四)教学方法选择。不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。

(五)课程合理设置。许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。

(六)学生特征挖掘。通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。

参考文献:

[1]张兴科,王浩.通过数据挖掘技术预测学生学习成绩[J].科技信息(科学教研),2007,(22):198-206.

[2]李雪燕.数据挖掘在高校成绩管理中的研究和应用[J].计算机与数字工程,2011,(07):267-278.

数据挖掘学习计划篇6

大数据技术的发展又离不开数据挖掘,那。。。

什么是数据挖掘?

数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘如此重要,如何进行数据挖掘呢?当然是知识!

知识将成为比数据更重要的资产

复旦大学计算机科学与技术学院教授肖仰华博士在他近期所作的《知识图谱与认知智能》报告中指出:前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。

那么问题来了?你需要哪些知识?

数据挖掘是个复杂的过程,它需要统计学、数据库、机器学习、模式识别等多学科的交叉融合来实现。

数据挖掘过程中用到的算法也很多,下图是对这些算法的一个总体梳理:

接下来我们就来说说这传说中的十大经典算法:

决策树(C4.5算法)

聚类(K-means算法)

关联规则(apriori算法)

随机森林算法

逻辑回归

SVm

朴素贝叶斯

K最近邻算法

adaboost算法

神经网络

篇幅有限,为了保证阅读质量,本文只讲解前三个。其余的算法讲解会不定期更新的呦,想学习的小伙伴看过来???

十大经典算法图解(一)

01

决策树(C4.5算法)

决策树(Decisiontree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。

根据一些特征(feature)进行分类,每个节点提一个问题,通过判断,将数据分为若干类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。

决策树生长算法流程(以C4.5算法为例):

C4.5算法实例图解:

两周内的天气及网球俱乐部顾客光顾情况

02

聚类(K-means算法)

什么是聚类?

什么是K-means?

K-means算法流程图解:

Setp1:确定初始质心

Setp2:计算距离&划分簇

Setp3:迭代计算中心点

Setp4:收敛

03

关联规则(apriori算法)

关联规则是形如XY的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中,关联规则XY,存在支持度和信任度。

关联规则经典算法及优缺点比较:

apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则。

在apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法须要对数据集进行多步处理。

apriori算法图解:

1.产生频繁项集

数据挖掘学习计划篇7

随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。

关键词:

大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。

1相关概念的简介

1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。

1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。

2数据挖掘的研究手段

对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。

2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。

2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。

2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。

3大数据时代的数据挖掘的运用

3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。

3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及apriori算法等。

3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。

3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。

4大数据时代的数据挖掘的运用

4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。

4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因Dna的数据以及遗传规律等。

4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。

4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过apr1ori算法挖掘其中关联规律。

5结语

虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。

参考文献

[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.

[2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.

数据挖掘学习计划篇8

关键词:数据挖掘;教务管理;决策支持

中图分类号:G647文献标志码:a文章编号:1674-9324(2014)13-0010-03

近年来,随着高等学校扩招以及计算机在管理中的普及应用,学校教学管理系统积累了大量的数据。目前,这些数据只是用于简单的成绩分析,并未能充分用于规律分析和处理,未在学校管理和决策起到应有的作用。因此,利用数据挖掘技术对学生成绩数据进行深层次分析,找出其中各种潜在模式及影响因素,将对学生选修课个性化管理、课程设置、教学计划制订和教学实践有重要的指导作用[1-3]。本文针对高等院校教学管理系统普遍存在的问题,提出了将数据挖掘技术应用到本科生成绩管理、分析和实践,通过从学生成绩数据中挖掘潜在的、有用的信息,目标是为教学管理者提供决策,为学生选课提供支持。

一、数据挖掘的概念

1989年,在第11界国际人工智能的专题研讨会上,学者们提出了基于挖掘的知识发现(KDD)概念。1995年在美国计算机年会上,一些学者开始把数据挖掘视为数据库知识发现的一个基本步骤或把两者视为进义词讨论[4,5]。所谓数据挖掘(Datamining),就是从大量、不完全、随机的实际应用数据中,提取隐含的、未知的、具有潜在应用价值的信息和知识的过程。其主要特征表现为:数据源必须是真实的、大量的;挖掘加工出用户感兴趣的知识;形成的知识要可接受、可理解、可运用。通过数据挖掘,可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,并用于决策。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。数据挖掘又被称为知识发现(KnowledgeDiscovery,KD),因此许多知识发现中的算法,如人工智能,也常常被使用于数据挖掘过程中。数据挖掘一般以下7个步骤:(1)数据清理:消除噪声和不一致数据。(2)数据集成:可以把多种数据源组合在一起,将数据结果放在数据仓库中。(3)数据选择:从数据库中提取与分析任务相关的数据。(4)数据变换:通过汇总或聚集操作把数据变换或统一成适合挖掘的形式。(5)数据挖掘:使用智能方法提取数据模式。(6)模式评估:根据用户某兴趣度度量,识别表示知识的真正有趣的模式。(7)知识表示:实用可视化和知识表示及技术向用户提供挖掘的有用知识。

二、数据挖掘技术在本科教学管理中的应用

大学本科教学管理,一般涉及了学生成绩管理、选课管理、学生评教等几部分内容,其实质上也是一个数据分析、加工利用和决策管理的过程。因此,利用上述数据挖掘的方法,对大学本科教学管理数据进行深层次的分析,可以将人们对数据的应用从低层的数据查询提升到决策支持、信息预测,在教学管理的诸多方面发挥着重要作用。

1.本科生成绩的挖掘加工。学生成绩是评价教学质量的重要依据,也是评价学生对所学知识掌握程度的重要标志,在高等教育质量评价中居于重要位置。所以通过对学生的成绩进行分析和挖掘,可以为教学管理者提供改善教学条件,加强教学管理,深化教学改革,提高教学质量等方面的重要依据。利用数据挖掘技术,通过不同范围、不同角度分析学生的成绩和分布规律,挖掘影响学生成绩的因素。主要包括:①统计分析各门课程成绩分布,包括最高分、最低分、及格率等;分析各门成绩之间的关系。②按班级分析学生成绩分布,以及影响班级成绩的因素。生成各年级成绩分布情况排名,年级成绩分布曲线。③不同任课教师给予的学生平均成绩;学生成绩与教师学历、职称,教学经验之间的关系。④各生源地成绩分布,生源地与学生成绩间的关系。利用关联分析或分类分析,可以发现一些普遍性的现象。如通过分析学生的成绩,可能发现“高等数学”成绩好的学生,其在计算机语言类课程的成绩也好。但这种分析,也可能导致对暂时不具有普遍性课程的忽略。

2.学生选课信息的挖掘分析。选课就是学生利用计算机软件选择自己所上的课程。选课数据中可能隐藏着对教学管理具有重要的参考价值,数据挖掘技术可以用来找出这些隐藏在数据背后的信息和知识。主要可从以下几个方面进行分析挖掘:分析各门课的课程归属和所占学分,确定学生选课时对不同课程归属课的学分多少的考虑;分析各门课的选课人数,确定课程的欢迎程度;分析各门课选课率,了解学生对目前课程安排中的满意程度;分析某门课程的选课学生情况,了解选择当前课程的学生的专业情况;分析各门课程的任课教师情况,了解任课教师的实际情况和综合能力。具体的挖掘步骤可按如下进行:①首先要对选课的原始数据进行预处理,把其原始数据采样后转换成适合数据挖掘的数据。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此要进行抽样与清理。在处理的过程中,要明晰数据的上下结构和面向对象,为数据挖掘作好准备。②完成数据的预处理之后,确定参与挖掘的数据表,在教务选课系统中学生选课表是基本事实表,课程信息表、学生信息表和教师信息表可作为维表。③最后将预处理之后的数据进行状态运行,在此基础上选择合适的数据挖掘算法进行数据挖掘。数据挖掘通过汇总或聚集操作将数据变换或统一成适合挖掘的形式,可单独利用也可综合利用各种数据挖掘方法对数据进行分析,挖掘用户所需要的各种规则、趋势、类别、模型等。挖掘的最终结果可以用可视化的图形方式表现出来。根据挖掘的结果,得出选课背后隐藏的各种数据信息,如某些专业的学生喜欢选某位老师所开设的相关课程,部分学生总是选择学分较多的有更多上机机会的课程等等。

3.学生评教信息挖掘分析。合理评价教学的技术水平是衡量一个学校教育质量的重要标准。教学评价就是根据教学目标和教学计划的要求,系统全面地收集数据,对教学过程中的教学活动以及教学成果给予判断的过程。评教内容一般包括对学生“学”的评价和对教师“教”的评价。下面以学生综合测评指标和学生评教指标为例,将关联规则和粗糙集理论应用于评价系统,通过对各指标的排序、约简等,在一定程度上对评价指标优化,讨论把数据挖掘技术引入学生评教指标优化和信息分析。另一方面,评定学生的学习行为,既可对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段。同时,考查学生个别差异,便于因材施教的途径。评价要遵循“评价内容要全面、评价方式要多元化、多次化、注重自评与互评的有机结合”的原则。利用数据挖掘工具对学生的学习成绩数据库、行为记录数据库、奖励处罚数据库等进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。另外,将关联规则运用于教学评价数据中,可以探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,用来及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导,这是非常有意义的。

4.教师信息的挖掘分析。教师信息是本科教学管理中的重要方面,如使教学评价过程科学化,增强教学工作的预测功能和评价功能,为教学的客观决策和客观评价教师、了解教师的教学质量提供了一种比较合理的管理依据。主要包括:①教师个人信息:包括教师学历情况、职称情况、科研情况、研究方向、级别、工作经历等各种信息,可运用关联规则方法对教学评价结果和教师个人信息一起进行挖掘,从而得出影响教学结果的潜在的教师个人信息的部分情况。②教师素质:包括教师的思想政治素质、道德素质、文化素质、智能素质、心理素质、身体素质、外在素质等七个方面,通过数据挖掘技术在学生成绩或者相应的调查信息的挖掘,看出哪些因素对教学方面有较大影响,切实加强教师在哪些素质方面的培养和提高,从而有利于教学管理方法的制定和实施。③教师绩效:包括教师的工作业绩、工作态度、工作技能等方面的综合考核。应用数据挖掘技术,可以从教学评价数据中进行数据挖掘,查询教学效果与教师的工作态度、工作技能等的各种关联,找到教师的教学效果与教师绩效的关系问题,合理调配一门课程的上课老师,使学生能够较好地保持良好的学习状态,从而为教学部门提供了决策支持信息。

我国高校的教学管理长期沿用经验管理模式,往往难以避免管理滞后的弊端,尤其是近年来随着教学管理中产生的数据急剧增加以及对信息量的更高要求,把数据挖掘技术应用到教学管理系统中,必将为各教学管理部门的决策提供切实可行的依据,可以促进教育管理的进一步改革、完善和发展。对数据挖掘工具的有效利用,能够客观地反映教学系统中存在的问题,为实现高校的教学改革,将来在激烈的竞争中掌握主动,从而提高管理的科学性、针对性和高效率。

参考文献:

[1]梁循.数据挖掘算法与应用[m].北京:北京大学出版社,2006.

[2]刘晓霞.数据挖掘技术在高校教学中的应用[J].现代计算机,2008,(285):115-116.

[3]张玉林.数据挖掘技术在教学过程中的指导作用[J].西安通信学院学报,2006,(02):38-40.

[4]陈文伟.数据仓库与数据挖掘教程[m].北京:清华大学出版社,2006.

数据挖掘学习计划篇9

关键词:中医药;数据挖掘;大数据

中图分类号:R2-05文献标识码:a文章编号:2095-5707(2017)01-0012-04

abstract:tCmdatamininghasbeencarriedoutfornearlytwentyyears.inthisprocess,theconceptoftCmdataminingisconstantlychanging.accordingtothechronologicalorder,therewerethreestagesofchanging:thenationalscienceandtechnologyprogramof“theninthFive-Yearplan”and“thetenthFive-Yearplan”periodwasthefirststage,whichwastheinitialstageoftCmdataminingresearch,andthecharacteristicofthisstagefollowedthe“threeconceptsofbigdata”;thesecondstagewasduring“11thFive-Yearand12thFive-Yearplan”ofthenationalscienceandtechnologyprogramperiod,whichwastheheydayoftCmdataminingresearch,andthecharacteristicofthisstagefollowedthethreeconceptsof"precisionmedicine";thethirdstagewasduringthe“13thFive-Yearand14thFive-Yearplan”ofnationalscienceandtechnologyprogramperiod,whichwasthebreakthroughinnovationstageoftCmdatamining.thisstagewillbeaffectedbytheartificialintelligent,tryingtofindtheexperienceofoutstandinggroupsthatcanbesuitablefortCmclinic.

Keywords:traditionalChinesemedicine;datamining;bigdata

数据挖掘(datamining)是数据中的知识发现(knowledge-discoveryindatabases,KDD)过程中的一个步骤。具体来说,KDD由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示这7个步骤组成和完成;根据其功能,数据挖掘可定义为从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程[1]。数据挖掘是一门新兴的交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[2]。数据挖掘技术已被应用于计算机软件及计算机应用、自动化技术、互联网技术、企业经济及中医学等多个学科领域中。

如果世界是由物质、能量和信息三大要素构成的,那么中医药学由于其产生的时代背景所限,其研究的主要世界构成要素必然是信息[3]。定性或定量化的信息亦即数据,对于信息的获取、存储、处理和传播都具有极其重要的意义。而数据挖掘在数据处理中占有极为重要的地位。通过数据挖掘,可以发现中医药学概念间的关联关系、新的知识,甚或新的规律,这对于促进中医药理论、方法、技术的进步,大力提高中医临床疗效,加快中药新药研发均具有重要意义。因而,近20余年来中医药领域在不断地开展数据挖掘研究工作。随着科技的不断发展和创新,中医药数据挖掘的理念也在不停地变迁。按年代的先后顺序,其变迁大致可以分为3个阶段:起始阶段、全盛时期和突破创新阶段。

1起始阶段,数据积累

第一阶段大约是在1995-2005年,主要在国家科技计划“九五”和“十五”期间。这是中医药数据挖掘研究的肇始阶段,中医药数据挖掘工作尚未得到充分重视。在这一时期,中医药数据挖掘主要是遵循了大数据的三大理念,即全数据、混杂性和相关关系[4]。具体地说,就是尽可能地收集所能收集到的全部数据,把所有能够收集到的数据混杂在一起进行分析,分析的重点是发现数据间的关联关系。该阶段研究的目的是试图发现中医药“书同文、车同轨”的“大一统”规律。换言之,就是发现如同西医一样,适用于所有情况的中医药统一规律。尽管那个时期大数据这个概念还没有提出,大稻堇砟钜裁挥姓孟裕但中医药数据挖掘的研究工作,却提前不自觉地遵循了大数据的三大理念。

该阶段内,中国中医科学院中医药信息研究所汇集了所有有出处的方剂(约10万余首),研制了方剂数据库,并将其结构化,用高频集的方法去探寻方剂组成规律,亦即方剂配伍规律。进行方剂数据挖掘的结果,成功发现了以方核为基础的方剂衍变轨迹,探索了高频药对出现的规律,但无法发现方剂配伍的规律,更不可能将此研究成果直接用于中医临床处方用药或中药新药开发。同时期,亦将所能收集到的中医药治疗疾病的文献汇集,研制中医临床数据库,并按系统或病种将其结构化,用聚类挖掘的方法探寻中医临床诊疗规律,也就是中医临床辨证论治规律。进行中医临床数据挖掘的结果,成功总结了中医临床某个证候或疾病能够出现的症状、所用的治则、选用的方剂和药物,但却无法发现中医辨证论治的规律。

这一阶段还开展了很多类似的研究工作,也取得了一些成绩,但始终无法真正提高中医临床疗效、促进中药新药开发、丰富和发展中医药理论。这促使中医药信息学研究者认真反思此阶段的研究工作在指导理念上是否存在问题。经过认真研究、思考,发现中医药在实际运用中有着很强的个体化特征,企图将其变为与西医学一样的、具有大一统规律的医学是不实际的,中医药数据挖掘研究必须依照中医药学自身特色和数据规律。

2全盛时期,数据共享

第二阶段大约是在2006-2015年,主要在国家科技计划“十一五”和“十二五”期间。这是中医药数据挖掘研究的全盛时期,国家投入了大量科研经费、部署了大量科研项目用于开展中医药数据挖掘研究工作。在此期间,几乎所有的中医药科研项目均或多或少地开展了数据挖掘研究。特别是大数据理念提出后,数据作为重要的科研资源共享,得到了越来越多的重视。在这一时期,中医药数据挖掘研究主要是遵循精准医学三大理念,即个体化、系统化、整体化[5]。个体化就是将医生视为个体,所研究的重点是个体医生的辨证论治经验,甚或其学术思想;系统化就是不仅将医生视为个体,同时也将患者视为个体,个体医生与个体患者组成了一个系统,研究重点是发现这个系统所收集到的数据随时间变化产生的规律;整体化就是将作为研究对象的个体医生所有能够收集到的数据都收集起来,作为一个整体进行数据挖掘,以期发现其处方用药规律。研究目的是试图发现“小国寡民”的个性化规律;换言之,就是发现遵循传统中医个体化诊疗的规律。当然,那个时期,精准医学的理念还没有提出,中医药界也不知道精准医学的三大理念,但中医药数据挖掘的研究工作确实提前遵循了精准医学的这三大理念。

在此期间,中医药数据挖掘研究工作的重点是名老中医经验挖掘,中医药领域开展了大量名老中医经验挖掘的科研工作。例如,中国中医科学院广安门医院以王映辉研究员为首的研究团队认为,采集名老中医辨证论治医案,可分析其辨证经验、用药经验等[6]。他们指出,辨证经验是指医生综合患者的临床表现、检验检查结果等信息,分析判断后,形成的对患者综合性的判断,是用药基础。辨证经验包括的内容主要有症状与证候的关系、疾病的证候特征,以及证候相兼规律等。用药经验是指医生根据所辨证候及兼证、兼症等选方用药的情况。一般而言,医生针对某一类具体病证有一个核心处方,核心处方的配伍是相对固定的,同时,由于每个患者的个体化特征,临证常有加减变化。有的医生是针对某一病有一核心处方,有的则针对某一病的某一证才有核心处方。分析挖掘名老中医的临床经验,其核心内容有2个:一是“如何确定证”,即辨证经验;二是“如何确定治”,即用药经验。为全面分析辨证经验及用药经验,需要全面考虑其涉及的临床要素,总结其辨证及用药经验。

类似的研究在全国各地开展很多,均取得了显著成绩。但这些研究结果很难高于名老中医个人对于具体病证的认识,因而对总结经验多有裨益,对提高具体病证领域的最高中医诊疗水平则帮助有限。经过认真分析研究,得出结论:中医固然是经验医学,但其提高不能只依赖于个人感悟,只有发挥行业整体优势,才能实现中医药的跨越式发展。

3突破创新阶段,数据转化

第三阶段预测在2016-2025年,主要是国家科技计划“十三五”和“十四五”期间,这是中医药数据挖掘的突破创新阶段。这一阶段中医药数据挖掘的定位将是以市场需求为导向,通过患者提供的信息,将数据直接转化为卫生保健知识,让患者在治疗过程中发挥更积极的作用,从而让数据挖掘的价值得到最大程度的体现。中国中医科学院唱独角戏的研究主体中也将融入更多医疗服务企业的加入,研究对象从科研型结构化、半结构化数据向移动终端的海量非结构化数据转变。这一战略转变将推动一系列新的软件、服务和应用更快地进入市场,有可能为中医药理论完善、临床疗效提高和新药创制提供支撑。

在此阶段,iBm公司的最新电脑系统watson将是医疗认知计算系统的杰出代表。2015年4月,watsonHealth成立,标志着iBmwatson正式涉足医疗行业。watson在海量的大数据环境中不断进行学习,不仅是认知计算,而是认知计算和大数据、分析和决策的复杂相互作用的结果。医疗机构在与watson合作的同时,使得医学研究人员在认知计算领域得到了知识的扩展。

在中医药领域,中医药数据挖掘的理念也将深受watson认知计算的影响,针对中医优秀群体诊疗经验的中医药数据挖掘平台也必须具备理解、推理、不断学习及强大分析的能力。但是,由于中医药数据属于知识密集型数据[7],其特点是知识密集度高,特别是医案文献数据是古代医家在临床诊治中的心得体会,是医家探索总结的一种智慧体现,蕴含了大量的隐性知识,而这些隐性知识具有很强的知识发现潜质。但中医药知识密集型数据的描述和表达是粗糙的,数据语义与内涵逻辑根本就没有逻辑性或者不能明确表达,这就为数据抽取和数据清洗带来了巨大困难。

尤其是随着海量移动客户端数据的涌入,将更容易获得用户的各种行为信息,例如所有的临床检验信息、处方信息、个体信息、疾病史信息及保险信息等。数据清洗面临的数据源更加复杂,例如问答、搜索、下载、上传的各种数据等等。数据抽取也将面临更大的挑战,例如歧义、语义变换,及无结构数据抽取模板的学习等。在中医学临床应用的场景中,由于数据抽取的质量与临床诊疗的疗效相关,因此对抽取工作的准确率、召回率的要求就更加高。希望通过对watson理念的学习,能够建立起中医药数据挖掘第三阶段的理念和方法,即由之前的“模拟”名老中医诊疗成为“多种传感器和大规模数据库,通过多种算法和机器的学习,来完成分散的任务”,能将优秀中医群体智慧成功地用于证候诊断和处方用药上,那么对提高中医临床疗效将具有不可估量的作用。

2016年3月,阿尔法围棋(alphaGo)对战世界围棋冠军、职业九段选手李世石,并以4U1的总比分获胜。alphaGo的工作原理有2个:一是“深度学习”,二是“两个大脑”,即通过2个不同神经网络“大脑”合作来改进下棋。在给定棋子位置情况下预测每一个棋手赢棋的可能。对于中医药数据挖掘来说,如果能将alphaGo“深度学习”的工作原理发展应用于中医优秀群体的诊疗经验学习,将“监督学习的策略网络”与棋局评估器双大脑的模式发展应用于具体疾病诊疗,那么针对中医优秀群体的医生诊疗数据挖掘将可实现。

无论是watson还是alphaGo,都是集中了人类优秀智慧解决问题。尽管中医面对的问题比watson和alphaGo面对的问题要复杂很多,但如果中医药数据挖掘在受watson和alphaGo的启发和影响下,试图发现可以超越个体的、适用于中医临床的优秀群体经验。那么在下一个10年,中医药数据挖掘研究有可能突破瓶颈,所取得的进展对中医药学的发展将是至关重要的。

参考文献

[1]韩家炜,KamBeRm.数据挖掘:概念与技术[m].范明,孟小峰,译.北京:机械工业出版社,2007:3.

[2]王光宏,蒋平.稻萃诰蜃凼[J].同济大学学报(自然科学版),2004,32(2):246-252.

[3]崔蒙,李海燕,雷蕾,等.“大数据”时代与中医药“知识密集型”数据[J].中国中医药图书情报杂志,2013,37(3):1-3.

[4]维克托・迈尔-舍恩伯格,肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[m].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[5]吴家睿.建立在系统生物学基础上的精准医学[J].生命科学,2015,27(5):558-563.

[6]张华东,赵冰,王映辉,等.谢海洲“治痹三要四宜”学术思想之信息化研究[J].湖北中医杂志,2008,30(11):5-6.

[7]崔蒙,杨寅.关于中医药科学数据建设的思考[J].中国中医药图书情报杂志,2016,40(4):1-3.

数据挖掘学习计划篇10

关键词:数据挖掘;高校图书馆;决策;图书采购;信息服务

中图分类号:tp399文献标识码:a文章编号:1007-9599 (2012) 19-0000-02

数据挖掘技术是计算机领域和人工智能领域的关键技术。数据挖掘技术可以将大量的数据转换为有用的知识和信息,因此引起了信息产业界的广泛关注。近年来,在作为信息和知识的集散地和发源地的高校图书馆,数据挖掘技术的应用更为广泛。

1数据挖掘概述

数据挖掘(Data mining),就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[1]。作为数据库中的知识发现的一种先进技术,数据挖掘通过总结要查询的内容的模式,对其间存在的规律进行搜索,辅助决策者对当前数据及历史数据进行分析,发现其中隐藏的模式和关系,进而对未来可能发生的事情进行预测。因此,数据挖掘技术在高校图书馆中有着广泛的应用。

2数据挖掘技术在高校图书馆的应用

2.1提高图书馆的决策能力

由于数据挖掘技术能够从众多的数据中发现有用的知识和信息,因此被广泛应用在图书馆的管理中,领导通过对挖掘出的有用信息进行分析,可以提高决策的准确性和可行性。比如,通过数据挖掘技术可以对图书馆的图书借阅情况进行挖掘和分析,分析每类读者的借阅行为特征,发现借阅规律,为图书馆的管理提供可行的合理的建议[2]。数据挖掘技术可以将图书馆管理系统中的内部数据和外部数据结合起来进行分析,为领导提供灵活的、随时可用的决策信息。数据挖掘技术可以从历史数据中找出某种规律,发现某种潜在的模式,以此预测未来,提供决策信息[3]。

2.2辅助图书馆的图书采购

此外,通过对数据挖掘技术的结果进行分析和总结,可以提供各种预测性信息和分析报告,可以科学合理的指导图书馆采购图书,从而降低图书采购人员的主观因素带来的影响,可以科学的、准确的和全面的提高决策的能力,提升决策的水平。数据挖掘技术应用于图书采购的过程包括原始数据的收集、预处理、数据变换、数据挖掘、结果分析和采购计划的制订五个步骤[4]。

1.原始数据的收集。这一过程是基础,可以为下面几个环节提供一定的数据源,提供的数据源可以用在后期的数据挖掘中。在实践应用中,这一环节主要收集图书馆办公自动化系统数据库里的相关业务数据,主要包括以下内容:①读者基本信息数据。比如读者的姓名、性别、所在院系、借阅证号等。②流通借阅数据。利用数据挖掘技术获得的这部分信息,可以反映图书馆的文献利用情况,通过分析、统计和总结这些数据,有助于掌握读者的需求和书刊的使用情况,进行提供一定的预测信息。③文献信息检索数据,这些数据的主要功能在于如实地向数据挖掘人员反馈用户的实际需求和借阅倾向,并挖掘读者需求数据。④图书馆所藏的图书数据:主要包括书的题名、作者、出版社、出版日期、索书号、馆藏位置、购入日期等数据。

2.原始数据的预处理。这一环节就是在数据挖掘前对一些有问题的数据进行处理,这些数据大多数是不完整的、不一致的或有噪声的,这些数据是图书馆自动化系统数据库数据中的一部分。在数据挖掘前处理这些问题数据是非常有必要的,可以从根本上提高数据挖掘的效率和所获知识的质量。

3.数据变换。这一过程就是对前面两个环节所获得的有效数据进行总结、分析、聚集和归纳,使数据更适合于挖掘,满足不同的数据挖掘的需求。

4.数据挖掘。数据挖掘过程的主要工作就是设计选择一种合理的算法,使当前的数据情况和挖掘的目标相匹配,使其一致,比如遗传算法等。通过分析读者基本信息数据和流通借阅数据之间的关联关系,某类读者和某类图书之间的关联度会更加清晰的被数据挖掘人员所理解。

5.结果分析和采购计划制订。一般情况下,数据挖掘所获得的结果并不是可视化的,需要通过一些工具比如可视化工具和知识表示技术对其评估和解释。通过数据挖掘,可以获得检索频率和借阅频次较高的图书信息。借助这些信息,可以对各类文献的利用率和需求状况进行科学合理的分析,从而辅助采购人员科学地筛选文献种类。

2.3提升图书馆的信息服务水平

图书馆的信息服务一般是被动服务,也就是图书馆员定期向用户提供一些资料,比如课题资料、项目资料等;除此之外,图书馆员还要逐一解答用户的信息请求。由于当前的科技发展日新月异,知识更新速度快,而这种被动服务模式反应较慢, 不能满足现实发展的需要。数据挖掘技术的广泛应用,使图书馆由被动服务转为主动服务,使传统图书馆转变为主动性、智能型的信息服务机构。

3数据挖掘技术对高校图书馆带来的挑战

(1)从异构数据源中挖掘信息。笔者认为,从异构数据源中挖掘信息也就是从多个不同的相关的数据源系统的集合中挖掘相关的信息并对其分析综合,从而产生有用的信息和知识。在当今的网络时代,信息技术日新月异,新技术层出不穷,这就要求图书馆的专业技术人员能够驾驭新兴技术,能够从被各种网络连接起来的具有不同语义的多种数据源构成的分布式异构数据库中挖掘相关信息。

(2)数据挖掘结果的不同形式表示。由于当前图书馆通过数据挖掘技术获得的数据具有不确定性,所以数据挖掘的结果会有多种类型,其表示形式也不同。图书馆的用户也许会要求挖掘出不同知识,这就需要图书馆工作人员从一个大规模的数据集中挖掘出不同的知识,并从不同的角度来审视,并以不同的形式表示挖掘的结果[5]。

(3)在不同的抽象层次上进行交互式挖掘。在数据挖掘之前,很难从一个大规模的数据库中预测出能挖掘出什么信息,因此,应该以一个搜索过程来处理复杂的数据挖掘查询,对于必要的中间结果务必保留,以供进一步挖掘使用。在挖掘过程中,用户通过不断地修改其查询请求,对挖掘目标进行动态调整,能使挖掘过程得到有效地推进。因此,系统需要对挖掘的中间结果以不同的角度进行观察,并提供用户观察数据的灵活性。

4结语

数据挖掘技术在高校图书馆的应用范围很广,除了上述应用外,在学科管理、馆藏资源建设、信息咨询、图书馆的现代化建设与管理等方面都有广泛的应用。通过对高校图书馆各种数据、信息的挖掘,可以揭示隐藏在期间的各种重要关系,图书馆员应该学习这方面的新技术、新发展,为图书馆的发展做出更大的贡献。

参考文献:

[1]邱晓辉.知识发现与数据挖掘分析[J].情报探索,2011,(1).

[2]张炜,洪霞.基于读者利用挖掘的图书馆决策与应用分析[J].现代情报,2009,29(7).

[3]罗仕健,朱光磊.数据挖掘技术在网络环境下图书馆中的应用[J].情报杂志,2004(6).