首页范文数据挖掘课程设计论文十篇数据挖掘课程设计论文十篇

数据挖掘课程设计论文十篇

发布时间:2024-04-24 16:05:26

数据挖掘课程设计论文篇1

关键词:医学院校;目标驱动;课程设计;毕业论文

中图分类号:G642.0文献标志码:a文章编号:1674-9324(2012)12-0218-02

一、背景

“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。

二、存在的问题

主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQLSeRVeR2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。

三、目标驱动的教学框架

对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。

1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。

2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQLSeRVeR2000和SpSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。

3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。

4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。

我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。

参考文献:

数据挖掘课程设计论文篇2

关键词:实验平台;教学管理;数据仓库;数据挖掘

中图分类号:G642文献标志码:B文章编号:1674-9324(2013)09-0253-03

一、引言

21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。

随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为it信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。

本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。

二、数据仓库与数据挖掘学科教学现状

随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。

市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。

1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。

2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。

3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。

4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。

三、数据仓库与数据挖掘学科教学实验平台的构建

为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端pC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。

1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。

2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。

(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;etL抽取操作平台。

(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;apriori算法实验平台;iD3算法实验平台;Bp算法实验平台;K-mean和K-medoid算法实验平台;C4.5算法和决策树算法实验平台;Knn算法实验平台;贝叶斯算法实验平台。

维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。

3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。

4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。

5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。

6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FaQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。

7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。

四、数据仓库与数据挖掘学科教学实验平台的教学效果

在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。

(一)建设了数据仓库和数据挖掘课程的实验教学体系

1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、etL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。

2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。

3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。

4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。

(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境

本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于web的多应用场景的远程开放实验平台。

(三)基于采样评估证明了远程网络实验教学的可行性和优越性

根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,a组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。

从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。

五、结论

在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。

参考文献:

[1]JiaweiHan,michelineKamber.DataminingConceptandtechnology[m].Beijing:Chinamachinepress,2007:10-12

[2]李旭晴.学科教学网站设计的应用探讨[J].计算机教育,2009,(02):1-2.

数据挖掘课程设计论文篇3

关键词留学生数据挖掘关联规则教学管理教学计划

中图分类号:G642文献标识码:aDoi:10.16400/ki.kjdkz.2016.05.012

abstractthisthesismainlystudiesontheapplicationofdataminingtechnologyinteaching.asthenumberofstudentsabroadinChinagrows,weneedtofindabetterwaytomakeChineseteachingmanagementmoreefficiency.itcombinesthetechnologyofdatawarehouseanddataminingwitheducationalmanagementsystemtorationallyutilizethemassdataaccumulatedintheworkofteachingandmanagement.then,inordertoacquirethepotentialdecision-supportknowledgetoguidetheworkofteachingandenableteachingmanagementtooperatewithadefiniteobjectandthusfurtherimprovethequalityofteaching,thispapermakesresearchfromthefollowingareas.Firstly,itappliesthetechniqueofdataminingtoanalyzingtheeffectandgainandlossintheteachingreasonably,then,itstudiesavarietyoffactorswhichinfluencethewelldevelopmentofstudentsfrommulti-angle.Finally,withregardtotheprimaryandsecondaryfactorsaffectingstudents'performance,itcarriesoutdeepanalysis.

Keywordsdatamining;associationrules;teachingmanagement;teachingplan

0引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1数据仓库与数据挖掘

1.1数据仓库

传统数据库在联机事务处理(oLtp)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”w.H.inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为oLap系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2表明,“高等数学(Ⅱ)i”与“高等数学(Ⅱ)ii”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)i”与“高等数学(Ⅱ)ii”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(i,ii),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(i,ii)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)i、高等数学(Ⅱ)ii;(2)高等数学(Ⅱ)(i,ii),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4数据挖掘在教学中其他方面的应用

通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。

3结论

数据挖掘技术作为一种新兴的数据分析技术,被充分应用到留学生的教学管理中。从招生管理方面来讲,通过数据挖掘技术,可以了解不同国家的生源质量,从而为学校的择优录取提供理论参考。从教学方面来讲,采用数据挖掘技术可以理性地分析在留学生教学方面的成效与得失,使留学生在学习过程中,更好地掌握理论基础和专业知识,并且可以把获得的基本的中文听、说、读、写能力运用到所学专业领域中。在教育信息化的大趋势下,数据挖掘技术在教育领域内必然有十分广阔的应用前景,而随着数据挖掘技术的发展,它也必将会在留学生教学管理中起到越来越重要的作用。

参考文献

[1]严华,陈文菁.关联规则在学生成绩分析中的应用.福建医科大学学报(社会学版),2008.9(1):46-49.

[2]吕爽,陈高云.数据挖掘技术在高校教学评估中的应用[J].广东广播电视大学学报,2006.3(15):24-28.

[3]J.Brachman,t.anand.theprocessofKnowledgeDiscoveryinDatabases.aHuman-centeredapproach,1996:37-58.

[4]赵辉.数据挖掘技术在学生成绩分析中的研究与应用.大连:大连海事大学,2007:6-10.

[5]张莉.数据挖掘技术在高校学生成绩分析中应用的研究.青岛:中国石油大学(华东),2009:6-10,56-57.

[6]潘锋.教务管理系统中的数据挖掘.重庆:重庆大学,2008:36-38.

[7]彭玉青,张红梅,何华等.数据挖掘技术及其在教学中的应用.河北科技大学学报,2001.22(4):21-24.

数据挖掘课程设计论文篇4

2.电子科技大学资源与环境学院,四川成都611731)

摘要:针对当前数据挖掘课程教学中工程应用与理论创新的脱节问题,分析数据挖掘课程本身的特点和当前教学现状,从提高本科生创新能力的人才培养模式角度出发,提出在教学内容的前沿性、教学方式的多元性及实验教学的多梯度性改革,达到因材施教、工程应用与理论创新的有机统一,有效提高学生的学习兴趣及学习效果。

关键词:数据挖掘;理论创新;多元教学;多梯度实验

0引言

在当前大数据时代背景下,如何从海量数据中挖掘并提炼出对人们真正有用的知识,是大数据研究的难点问题,同时也是目前数据挖掘面临的关键和核心问题[1]。数据挖掘作为当前计算机专业的一个前沿课程,是一个综合性的交叉课程,也是重要的学术研究方向,其内容涉及多方面基础理论学科和应用性强的技术领域,是提高计算机专业学生应用实践能力和理论创新能力的载体课程,在整个计算机专业的学习中具有极为重要的地位。

1教学现状

数据挖掘作为一门同时具备应用性和学术性的课程,早期属于计算机专业研究生培养的专业课程,但随着数据挖掘在各个领域的广泛应用,现已成为计算机专业本科培养的专业选修课之一。目前,数据挖掘课程在教学内容、教学方法和实验教学模式上存在诸多不足之处。

(1)教w内容陈旧。目前的教学内容一般根据某本数据挖掘教科书进行讲解,由于数据挖掘技术的快速发展,一本教科书往往很难全面概括数据挖掘的内容、方法和技术。

(2)基础理论算法与实验教学脱节。当前的教学路线往往是使本科学生从了解和掌握数据挖掘的基本任务开始,然后讲授数据挖掘的各种基本算法,最后上机实验。这一教学方式侧重于以应用为主,主要目标在于培养计算机工程的应用人才。然而,由于基础理论算法与实验教学分开讲解,使得学生缺乏对使用数据挖掘解决实际问题的能力。

(3)理论创新意识的缺乏。在当前的本科教学中侧重工程实践能力的培养,忽略理论创新的培养。在数据挖掘课程中,理论创新是指学生对所学的数据挖掘算法有自己的见解,能有意识地思考目前数据挖掘面临的问题并提出新的数据挖掘算法。

(4)实验教学僵化。当前的实验教学往往是固定的几个算法验证性实验,对于不同学习能力的人而言,实验教学往往很难达到理想的效果。

目前,对日新月异的科技发展、以科技创新和技术升级为核心特征的激烈国际竞争,我国自主创新能力较为薄弱的问题已经越来越成为信息化发展的瓶颈[2],这也给数据挖掘教学带来巨大挑战,即教师如何在教学过程中提高学生的理论创新能力?

2教学方法的改革

2.1教学内容的前沿性与统一性

作为一门新兴的前沿课程,该门课程内容、方法和技术仍处于发展和探索阶段。通过固定的教材去系统地传授数据挖掘的内容显然是不太合理的。因此,与传统学科不同,数据挖掘教学内容需要进行更新,并根据学生的接受能力进行甄别筛选。同时,要求任课教师在不断发展的新技术与相对稳定的教材中寻找一条贯穿整个教学内容的主线,在讲课的过程中,结合数据挖掘研究进展,配合自己的研究成果,把最新的技术融入到课堂中。此外,由于数据挖掘是多学科的交叉课程,内容涉及统计学、算法、数据库、机器学习、模式识别、可视化等,而本科生的知识体系薄弱,在短时间难以透彻理解各部分内容。因此,教学过程中教师应合理设计教学大纲和方案,有机地学内容,让学生对数据挖掘有一个整体的了解。建立不同数据挖掘任务之间的相互关联,同时以项目讲解的方式将数据挖掘涉及的数据预处理、聚类分析、分类预测、噪声检测、关联规则挖掘等有机结合在一起。

2.2理论创新的多元教学

针对现有本科生教学中理论创新意识的缺乏,尝试进行多元化教学模式,主要从以下4个方面展开。

(1)区分教学内容的难易度,将教学内容分为基础内容与进阶内容。在讲授中注重基础内容的原理性,并有意识地让学生接触一些前沿性的理论拓展知识。比如在讲解分类算法时,首先专注几个经典的分类算法,如K―最邻近、决策树、朴素贝叶斯和支持向量机等。同时,在此基础上,给学生讲述目前分类的一些前沿方法,如集成学习、深度学习和迁移学习等。

(2)以问题为驱动教学。在讲解聚类算法时,可以通过“物以类聚,人以群分”的思想展开,具体介绍K―meanS和DBSCan两个具有代表性的聚类算法,让学生思考数据挖掘不同算法提出的原因、基本思想和优劣性,初步引导学生的自我思考、自我学习的创新思维能力。同时,针对数据具有的高维性,让学生进一步思考“高维诅咒”问题及在此问题上展开的子空间聚类的研究。

(3)建立“教研统一”研究式教学方法,利用教师现有科研促进和服务于教学,探索形成“科研嵌入”理论教学内容。将教师在自己的研究与教学内容进行有机结合,丰富教学内容,拓宽学生视野,提高学生实践能力和创新能力,实现科研成果融入教学。这样既提高了学生学习知识的兴趣性,又培养了潜在的科学素养。此外,在整个教学环节中布置两个任务,一是让学生进行数据挖掘的文献调研(主要涉及数据挖掘的历史、现状、面临的挑战及当前的行业应用),二是在课程结束后进行主题研究报告,每个学生选择自己感兴趣的一个主题进行,研究报告的目的是让学生深入理解所学内容,为后续的科研工作打下基础。

(4)教学模式由传统“填鸭式”向“互动式”教学转变。通过研讨方式引导学生去思考,激发学生的求知欲,充分调动其学习的积极性和主观能动性。通过具体实例,让学生知道算法的应用场合,提高学习兴趣和效率。

2.3多梯度实验教学

实验教学是使学生在实践环节将数据挖掘课程中学习的理论算法应用于实践,帮助学生理解和掌握知识,提高动手能力。传统的上机实验往往是侧重几个经典算法的实现,如KmeanS、Knn、iD3决策树和LoF算法等。然而,数据挖掘是一门工程应用性较强的学科,这种算法验证实验很难让学生体会到数据挖掘的实际应用,因此,从基础能力培养、工程应用及创新研究3个方面设计多梯度实验。

首先,按照由浅入深的原则设计2个经典算法实现,如KmeanS和iD3决策树。这个实验为算法型实验,主要是帮助学生通过实验更好地了解所学算法,学生也可以自己选择聚类分析和分类预测的任意两个算法进行实现。

其次,设计一个简单综合型实验,比如垃圾邮件的分类系统,要求学生完成从数据收集、数据预处理到整个系统的实现。主要考查学生综合运用数据挖掘知识,解决实际问题的能力,注重工程能力的培养。

最后是创新算法的实验设计,比如子空间聚类算法的实现。这个实验注重部分学生创新能力的培养,尤其是致力于以后从事科学研究的学生。学生可以根据自己的爱好,选择算法型实验和综合型实验,也可以选择算法型实验和创新算法设计实验。多梯度实验的目的主要是希望针对不同学生的学习兴趣及将来的发展方向,给出合适的实验教学。实验的整体难度由易到难,层层深入,有利于学生实践能力和创新能力的培养。

3结语

当前,数据挖掘正处在快速发展的过程中,各个领域的大量应用使得对数据挖掘这门课程的工程应用能力要求越来越高,需要学生具有更好的创新能力,因此,数据挖掘课程的教学也同样需要调整教学内容和教学手段来紧跟其发展的步伐。基于此,我们提出在课程内容的前沿性、教学模式的多元性及实验教学的多梯度性上进行改革,从而达到在培养学生工程实践能力的同时,提高其创新思维能力。

基金项目:电子科技大学“互联网+”课程建设教改专项。

第一作者简介:邵俊明,男,教授,研究方向为数据挖掘、机器学习及在交叉学科的应用研究,。

参考文献:

数据挖掘课程设计论文篇5

随着国家政府出资进行的数据挖掘科研项目的逐年增多,我国高等院校都在竞相开展数据挖掘课程的理论知识以及实际应用分析。而该课程的教学目的就是使学生掌握扎实的数据挖掘理论知识,并且能够在日后的工作实践中熟练应用已经掌握的理论知识。目前数据挖掘课程已经成为计算机领域的一大热门学科,而计算机领域又是遍布全球的研究应用领域之一,因此为数据挖掘课程开设双语教学模式较之其他学科有优势。

1.1人力资源优势现在我国所有的高等院校的本科生及其以上学历的学生都具有一定的英语基础。其次计算机领域的教师大多数也具备良好的英语条件,尤其是那些部分具有国外留学经历的教师,只要有外语授课经历,那么稍加培训就可以很轻松胜任双语教师的职位。并且计算机领域的教师,他们对于计算机操作的熟练程度较之其他专业的教师高很多,他们更善于利用互联网络进行教学,在数据挖掘的实验部分更容易解决技术上的难题。

1.2物质资源优势数据挖掘双语教学过程中,最好使用的是原版英文教材和资料。就目前我国大部分高等院校来看,还没有多少数据挖掘的教材是出自国内,这就在一方面避免了很多“汉化版”教材带来的歧义,以免对双语教学的师生产生一定的误导。与其他学科相比,数据挖掘课程原版英文教材更多一些。

2有关数据挖掘双语教学的建议措施

随着双语教学模式的关注程度的不断提升,怎么样更加有效地开展数据挖掘课程双语教学模式并提高教学质量,是各大高校未来一段时间关注的热点话题。现建议从以下几方面着手进行:

2.1各高校有关数据挖掘双语教学政策方面虽然目前教育部已经出台了相关政策用来扶持双语教学,但是对于各大高校来说也应该及时制定相关方案,加大监督力度,早日使数据挖掘课程双语教学模式步入正轨。比如,开设数据挖掘课程的各大高校首先要在意识上重视双语教学,努力为双语教学的开展创造良好的教学氛围,然后要提供一定的资金来扶持双语教学的顺利开展,对学校中的双语教师在薪酬以及课时安排方面要有一定的照顾,还要不断制造机会鼓励部分教师出国深造,定期对双语教师进行培训,使得他们不断学习,保证双语课程的长远发展。

2.2师资力量方面在双语教学模式中,教师是学生学习最直接的带头人,教师的能力和外语水平与教学质量有直接的联系。从已有的教学活动来看,数据挖掘双语教学课程的教师至少要有一定的国外留学和授课经历,熟悉英语语言环境,从而能更准确地把握授课情况。其次,数据挖掘双语教学课程的教师还要有非常扎实的数据挖掘理论知识。再次,数据挖掘双语教学课程的教师还应该具备一定的科研探索能力,从而能在把握教材的基础之上,也能把握学科的前沿。总而言之,数据挖掘双语教师不仅仅英语水平高,专业知识扎实,还应该具有用英语表达数据挖掘专业知识的能力,同时又拥有很强的教学能力。

2.3教学资源方面双语教学的基本原则是尽量使用原版外文教材和参考资料[5]。使用原版外文教材不仅使学生掌握最前沿的知识,更有利于促进更新教师的已有知识。教育部原副部长吕福源曾经说过:“教材是一个很关键的问题,必需大量地不断引进国外原版材料,并以各种方式投入使用,才能保证我们培养出的学生是国际一流水平的。”由此可见引进外文原版教材的重要性。另外,在信息技术高速发展的今天,学生们的学习不能仅仅局限于书本那点有限知识,而是应该充分利用互联网络,提高自己的学习主动性,例如最近特别流行的mooC,微课,以及百度百科和维基百科等网络工具。

2.4教学理念和方法方面教学理念上要由传统的教师“填鸭式”灌输型变成教师引导型,即由教师占主导地位变成教师仅仅起到引领带头的作用,让学生自己去探索去思考学习。在每堂课正式讲课之前,教师可以采用先行组织者的授课方式,将问题抛给学生,让学生带着问题开始这一节课。在授课途中,学生也能随时提出自己的问题和见解,像国外学生上课一样,这样整个课堂的学习气氛就会被带动起来。最后通过教师的引导和讲解,同学们的讨论,问题自然而然得到解决。整堂课下来,同学们既感觉不到累和枯燥,又能很好地掌握本堂课的知识,对于教师而言也是如此。总之,这种双赢的教学理念值得推荐。在教学方法上,要兼顾不同英语水平的学生,适时地使用非语言行为。这些非语言行为不单单是指一些简单的形体语言、表情配合等,更为关键的是诸如角色扮演、案例分析、游戏理论等一些能够容易吸引学生参与意识的方法应用[6]。使用这些非语言行为的主要目的也是调动课堂气氛,引导同学们积极参与到课堂中来,而不是为了双语教学而进行双语教学活动。

2.5数据挖掘课程双语教学评价体系双语教学的评价体系实际上是对双语教学效果的检验过程,一般分为过程性评价和总结性评价两种。其中过程性评价是在学习过程中分阶段地对学习效果进行检验,总结性评价是在一段时间内对整个学习过程进行总结检验。这就要求在教学过程中密切关注学生的课堂表现,及时了解学生的学习效果,并且总结学生对课堂知识的掌握程度。从长远分析的话,教师还要关注该课程的双语教学效果在学生今后的工作生活中的应用价值,对学生的就业状况进行跟踪调查,并且分析总结双语教学对社会起到的一定的影响。两种评价手段都是为了在今后的数据挖掘双语教学课程活动中起到一定的指导作用,而最终的目的是对社会的教育事业产生积极的长远的影响并且能够使国家的综合国力得到进一步的提高。

3总结

数据挖掘课程设计论文篇6

关键词:数据挖掘教学应用管理应用

一、数据挖掘技术概述

1.数据挖掘涵义

随着计算机应用的普及,信息技术的发展,产生了大量的数据。如何从大量数据中提取有用信息,找到隐藏信息成为亟待解决的问题。数据挖掘技术应运而生,且伴随数据库技术发展而逐步得到完善。

数据挖掘(Dm:Datamining)也称数据库中的知识发现KDD(KnowledgeDiscoveryinDatabase),是从大量数据中提取或“挖掘”知识的过程,即从数据集合中抽取出隐藏在数据中的有用信息和知识的非平凡过程。数据挖掘是建立在人工智能、数据库技术、统计学、可视化支柱技术、机器学习、并行计算等不同学科和领域知识基础上,不同于信息检索的一门数据库技术。在大量数据中查找符合条件的记录,或者在因特网中搜索查找需要的特定信息,均属于信息检索领域范畴。

常用的数据挖掘技术主要有关联分析法、时间序列分析法、预测分析法、分类分析法、聚类分析法等。

2.数据挖掘对象

数据挖掘对象是大量多种多样的数据,可以是关系型数据库中的结构化数据;也可以是文本数据库、多媒体数据库、时态数据库、历史数据库中的非结构化数据;甚至是万维网(weB)上的异构型数据。

二、数据挖掘在教学和管理中的具体应用

1.教学方法分析

在教学过程中,教师通常采用讲授法、讨论法、案例法、演示法、参观学习法等多种教学方法完成对本门课程的教学任务。不同专业及层次的教学班级应采取何种教学方法以满足教学需要,且有利于学生对知识的掌握?大量的教学实践经验存放于教学数据库中,运用聚类分析、关联规则或分类分析的方法对存放于教学数据库中的数据进行挖掘,可以判断出教学方法与学生之间存在的适合关系,对分类、分层次、分专业教学具有指导意义。

2.教与学的评价分析

教学评价包括教师“教”的评价和对学生“学”的评价,是世界教育科学研究三大研究领域之一。目前,在各个高校中通过参考国内外相关评价指标体系且结合实际经验和采取调查问卷等方式积累了大量教与学的评价数据,包括学生综合评价指标、学生测评指标、课堂教学评价指标等,但对于各项指标间的关系,进行评价指标体系研究的高校却较少。[4]将粗糙集理论及关联规则应用到各评价系统,进行数据挖掘,可以容易地找到适合学校教学评价且简单易行的评价指标体系。另可考查学生个别差异,便于因材施教,对学生的学习评价也是各个高校教育工作者的重要职责之一。

利用数据挖掘工具,如将关联规则运用于教学评价数据库中的数据,得到教学效果与教师的职称、性别、年龄等之间的关系以及学生具备的素质指标之间的关系等,可以即时得到教学评价结果,从而对教师的“教”和学生的“学”进行及时指正。

3.课程设置分析

学校对学生课程的设置大多遵循先基础、后专业、每学期的必修与选修课程的规律,课程与课程之间存在一定的关联与前后顺序关系,且学习室循序渐进的。[5]怎样能使每学期的课程设置大局与局部兼顾是一个值得教育工作者研究的问题。

学校学生成绩数据库中存放了历届学生的考试成绩信息,运用关联分析、分类分析和时间序列分析对学习同一门课程的不同专业和班级的学生成绩数据进行挖掘,分析数据之间的相关性和规律性信息,找出影响学生学习成绩的原因,从而对学校学生课程的设置做出合理安排。

4.学生学习及行为分析

依靠教师多年的教学经验来解决,可以了解学生在学习过程中所遇到的困难,帮助学生克服学习中的障碍,但对于更新迅速的计算机学科,传统的教学方法显然不能满足教学。因此可以利用数据挖掘技术从学生提交作业的数据库中提取数据及时发现和解决问题。例如,本人近期对学生提交的C语言程序设计课程作业进行数据挖掘,通过对评阅结果为语法错误、语法警告和运行错误的记录使用数据挖掘技术,准确地发现了学生程序中的语法及算法错误的主要因素,使学生得到及时地反馈,并在日后的程序设计中避免类似错误发生,从而明显改善教学效果。

在信息技术高度普及的今天,利用数据挖掘工具对学生的奖惩情况记录数据库、学生互评数据库、学习行为记录数据库等进行分析处理,对学生的行为进行管理并对不良行为进行及时指正,既减轻了教师的工作量,又达到了改善教学的目的。

5.学籍管理分析

各个高校在学生入学后,都为学生建立了学生档案,包括学生的姓名、年龄、性别、家庭情况、健康状况、特长爱好、奖惩情况、入学前后的成绩、联系方式等等。这些信息当中隐含了大量的有价值的数据,如每名学生的学习成绩变化情况、行为记录情况、身体健康变化情况等,运用预测分析、演变分析、统计分析、聚类分析、关联分析等方法,挖掘出有价值信息进行分析,对提高学生学习能力、各方面素质发展、纠正不良学习行为、学校的学生管理工作等均能起到指导作用。

三、数据挖掘应用的困境及发展前景

数据挖掘存在着一个潜在的机会。从数据集中发现模式的可能性当然存在,然而,也不应就此掩盖危险。所有真正的数据集,即使那些是以完全自动方式搜集的数据,都有产生错误的可能,关于人的数据集,例如事务和行为数据,尤其有这种可能。与此相关联的是如何确保任何所搜集到的模式是“真实的”,并为数据挖掘的可靠性提供保障。

目前,数据挖掘技术及应用已是国际上的一个研究热点,并在许多行业中得到应用,尤其在市场营销领域体现了其优越性和发展潜力。据国外专家预测,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。随之而来的是数据挖掘技术在教育领域中的应用也必将不断壮大,发挥越来越大的作用,对日后教育的改革和发展起到指导和巨大的推动作用。

参考文献:

[1](加)JiaweiHanmichelineKamber著范明孟小峰等译.datamining:Conceptsandtechniques数据挖掘概念与技术[m].北京:机械工业出版社,2001:3-17

[2]margarentH.Dunham著郭崇慧田凤占等译.数据挖掘教程[m].北京:清华大学出版社,2005:3-15

数据挖掘课程设计论文篇7

(武汉科技大学城市学院信息工程学部湖北武汉430083)

摘要:数据仓库与数据挖掘是大数据时代产生的一门新兴交叉的课程。针对该课程的特点,将CDio工程教学理念融合到教学过程,重新设置了教学目标与大纲、调整了教学内容、改进了教学方法,总结了数据挖掘课程教学实践的一般流程并给出具体的实验教学设计方案。

关键词:教学改革;数据仓库;数据挖掘;CDio

中图分类号:G642文献标识码:adoi:10.3969/j.issn.1665-2272.2015.09.040

收稿日期:2015-03-15

1CDio简介

CDio工程教育模式是基于项目的学习的一种模式。CDio中,C(Conceive)构思,根据工程实践,让学生掌握专业知识的基本原理,确定未来发展方向;D(Design)设计,以产品设计与规划为核心,解决具体问题;i(implement)执行,以制造为核心,组织一体化的课程实践,其中包括学生必须掌握的理论知识与实践能力;o(operate)运作,即产品应用的各个环节。它以产品的研发到运行的生命周期为载体,通过系统的产品设计让学生以主动的、实践的、课程有机联系的方式学习。CDio代表工程项目生命全周期,是产业转型升级对创新人才需求的形势。

CDio培养大纲将工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDio系统四个层面,大纲要求以综合的培养方式达到这四个层面的预定目标。其精髓在于:以工程项目设计为导向、工程能力培养为目标的工程教育模式。

2“数据仓库与数据挖掘”课程概况

当今的大数据时代,人们处理数据的能力大大增强,快速增长的海量数据已经远远超出人们的理解能力,因此数据仓库与数据挖掘技术得到了广泛关注,有效地挖掘和运用海量数据,获得有价值的知识和信息,从而帮助人们制定正确的决策。很多高校为工程类专业本科生开设这门专业课,研究如何将信息处理技术运用于企业管理决策的具体实际。

本工程课程涉及到数据仓库的设计与构建技术、联机分析处理oLap技术、分类与预测、聚类、关联规则算法、数据挖掘应用综合项目技术等多方面的知识和技能。通过课程的学习,不仅要求学生掌握在数据仓库与数据挖掘方面的知识,还要求培养学生的工程CDio能力。

但是目前许多高校在工程教育采用的教学方式存在以下问题:培养目标不清楚,学术化倾向严重;人才培养模式单一,缺乏多样性和适应性;工程性缺失和实践环节薄弱;课程体系与产业结构调整不适应等。在教学过程中,强调教师的主导作用,却忽视了学生的主体作用,忽视了学生的工程意识、工程素质和工程实践能力的培养。这与高校培养创新性应用型人才的目标相悖。因此,改革势在必行。

3“数据仓库与数据挖掘”课程改革实践

3.1基于CDio理念的教学目标与大纲

CDio教育理念所提倡的工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDio系统四个层面,四个层面上进行综合培养的教学模式。在CDio能力培养目标方面,课程在四个能力层面上建立培养目标。

针对“数据仓库与数据挖掘概述”内容,知识点是数据仓库的含义与特征、数据挖掘的任务、多维数据模型。讲授数据仓库的概念、特点、构成以及数据挖掘和数据处理的基本知识,使学生有一个初步的理解。培养学生技术知识与推理能力。

针对“联机分析处理oLap”内容,知识点是数据仓库的数据组织、数据预处理、数据存储、基于多维数据模型的数据分析。本阶段如果不结合直观的举例讲解,学生就失去了兴趣,因此笔者要布置一些思考题,教会学生自主学习,自己查阅教材、网络等资源资料,从中提炼出结论。培养个人分析问题、解决问题的能力、所学知识的灵活应用能力;

针对“分类与预测、聚类、关联规则”内容,知识点是数据采集、关联规则算法的设计、结果分析。在这个阶段经常会是“数据的堆砌”,讲了很广泛的算法知识却没有足够的时间进行深入理解。因此应抓住关键的概念、能力,引导学生提出问题,并学会调查研究,为学生提供深层学习的机会,并把在第一层面所学的知识运用到对问题的解决之中去。这样,学习的焦点就从“覆盖”的方式过渡到以学生为中心的学习方式。培养数据获取能力、程序设计能力、问题表达能力;

针对“数据挖掘应用综合项目”内容,知识点是项目的准备、进度管理、文档管理和项目设计和实现。实际工作牵涉到企业或者组织的各个部门多类人员,所有团队成员之间协同、合作,会有分工、沟通、协调,甚至会有妥协,这就要求在运用实例的过程中一定要具有团队合作精神。培养工程系统能力和人际团队能力。

3.2改革教学内容

在教学内容中安排了两级项目:多种初级项目和一个高级项目。初级项目是将课程内容分成各种项目,数据主要来源于SQLServer2008的示例数据仓库adventureworksDw,以项目实现促进理论学习;高级项目是综合性项目:“卷烟产品销售规律挖掘”,利用卷烟产品历史销售数据中蕴含的信息,采用数据挖掘技术对各个卷烟品种销售的关联关系进行分析并预测,以制定更加合理的卷烟产品营销策略。具体项目设置如下:

项目一:基于SQLServer2008的数据仓库数据库及多维数据模型设计。步骤如下:分析组织的业务状况及数据源结构组织需求调研,收集分析需求采用信息包图法设计数据仓库的概念模型利用星型图设计逻辑模型物理模型设计构建多维数据模型。本项目旨在个人能力的培养(分析问题、解决问题的能力、所学知识的灵活运用能力等)。

项目二:关联规则挖掘。使用商业智能开发工具进行购物篮分析,以达到重新设计网站功能,提高产品的零售量。

项目三:潜在客户分析即分类及预测。使用商业智能开发工具分析购买自行车的潜在客户。

项目四:K-means聚类分析。使用商业智能开发工具分析客户购买自行车情况分析。

项目五:贝叶斯网络应用。使用商业智能开发工具解决一个简单的预测和诊断问题。

项目二至五旨在培养学生个人能力(数据获取能力、程序设计能力等)和人际团队能力(问题表达能力、人际交流能力),倡导学生乐于探究、勤于动手。

高级项目:数据挖掘应用综合项目“卷烟产品销售规律挖掘”。将一个相对独立的项目交由学生自己处理,从信息的收集,方案的设计,到项目实施及最终评价,都由学生自己负责,学生通过该项目的进行,了解并把握整个过程及每一个环节中的基本要求。通过综合项目,学生完成了CDio的四个阶段,提升CDio所提倡的四大能力,具体体现如表1所示。

3.3改革教学方法

在课程教学方法是项目教学法为主,任务驱动法和案例教学法为辅的教学模式,起到很好的教学效果。

4结语

CDio工程教育模式由麻省理工学院和瑞典皇家工程学院提出,包括构思、设计、实现和运作四个环节,是国际流行的工程人才培养理念,强调对学生创新思维、实践能力和团队协作精神的培养。本文体现了CDio理念的能力培养要求,将数据仓库设计开发方法和数据挖掘技术融入具有较强工程背景与应用价值的项目设计与开发中,理论与实践紧密结合,推动课程建设和课程教学改革。

参考文献

1顾佩华,沈民奋,陆小华译.重新认识工程教育—国际CDio培养模式与方法[m].北京:高等教育出版社,2009

2郭长虹.重构CDio特色的工程图学课程体系[J].图文学报,2013(3)

3王丽丽.CDio视角下项目驱动法在“数据仓库与数据挖掘”教学中的应用[J].电子商务,2013(9)

数据挖掘课程设计论文篇8

关键字:数据挖掘;学生特点;行为障碍;整体素质;教学策略

tp311.13

近几年来,由于大学不断扩招,普高热持续升温,中专招生面临严峻的考验,所以很多中专学校是凭证入学,生源素质可想而知。据我对全校10个班500多人做的调查发现,选择中专学校的原因大体有如下几种:1、来自贫困家庭,学习成绩不错,但无法支付上高中和大学的高昂学费,2、考不上高中,学习处于班上下游的同学3、学习还勉强,但比较懒散,只想混个中专文凭4、想学一技之长。面对这样参次不齐的生源素质,如果用固有的一锅端、所有人都是一样的学习任务、一样的教学理念,不考虑个体差异进行教学,这样的教学效果可想而知,因此,能不能考虑在教学的过程中,根据学生的兴趣爱好、原有成绩、家庭环境等个体差异,教学课程横向和纵向的联系等教学信息,利用数据挖掘技术,对这些海量数据进行深入分析,挖掘出有价值的信息,为改进教学方法、教案设计等提供依据和指导。

下面根据对本校12级10个班不同专业的学生进行问卷调查的结果先来分析学生学习、行为障碍的类型及成因,只有找出存在的问题,才能给出解决问题的方法。

一、家庭成长环境的消极影响。

从问卷调查结果显示,有10%的学生来自于单亲家庭,父亲或母亲的缺失,使孩子养成了孤僻、冷漠、不爱和人交流的性格,以致学校或班上的事情都不愿和家长交流,久而久之,学习成绩自然大多不理想。60%来自农村家庭,父母早早出去打工,孩子都是和爷爷奶奶一起长大的,家务的繁重以及老人的疏于管教导致很多孩子学习很吃力。还有部分来自城市的孩子,虽然和父母住在一起,但因父母忙于做生意或工作太忙,基本没时间管教孩子,孩子回到家要么看电视要么玩游戏,学习成绩自然一落千丈。

二、缺少学习动机和积极的归因模式。

奥苏贝尔指出:“动机与学习之间的关系是典型的相o相成的关系绝非是一种单向性关系”。成就动机强、学习好的人对学习和工作都非常积极,对事业富有冒险精神,并能全力以赴,希望成功;他们希望得到外界的公正评价,并不过分重视个人的名利;这些人能约束自己,不为周围环境所左右;他们把成败常归于自己能控制的主观因素,如个人的努力程度;他们倾向于对未来成就抱较大的希望。成就动机弱、学业差的人,学习和工作出问题都会找各种原因,或归因于自己能力低,从而丧失学习兴趣,产生自卑感,最后厌学弃学;或归因于教师能力差,水平低,教法不当,讲得不清,板书不细;或归因于课堂纪律不好,没有良好的学习环境和积极向上的学习气氛;也有学生是因偏科、怕课,从而缺少学习知识、技能的动机。

三、缺少课程学习兴趣。

兴趣是最好的老师,对课程的热爱和浓厚兴趣是有效地学好课程的先决条件。各种各样的原因导致许多同学缺乏学习兴趣:主要因学习内容类同和或专业课程的增加所至。到中专来学习的学生大多数初中阶段就学不好语文、数学、英语,进入中专以后开的基础课程仍然是这些,因为初中阶段留下的学习这些学科的阴影,导致不能尽快提高自己的学习成绩甚至对专业课程也产生影响。其次缺少持之以恒的毅力,有些学生因没有吃苦耐劳的决心,没有顽强拼搏的精神,一遇到困难就退缩,长期下去,就失去了学习兴趣。

四、没有良好的学习习惯和学习方法。

有些学生懒惰,依赖性强,学习不主动不积极,课前不先预习,课后更不复结;课堂内不作笔记,课堂外做作业都是抄袭别的同学的;一到考试就想方设法作弊。整个学习过程无计划,无目标,没有针对性。

五、基础能力水平低

有些学生本来基础就差,知识面又窄,抽象思维能力也弱,迁移能力更不足,但又不肯脚踏实地去学习,希望一堂课听10分钟就能把45分钟的内容全部学会,或者课堂上根本不听,课后花时间自学,不仅事倍功半,而且习得的知识零碎,不能构成完整的知识体系。

六、社会大环境对学生的影响,直至产生行为障碍。

现在学生受社会不良环境影响严重,大多数同学不能正确的处理好学习和玩乐的时间,把大部分精力放在看电视、玩游戏、呼朋唤友上,丧志,虚度大好时光,家长对自己的孩子大多听之任之,也有部分对孩子的管教无能为力。导致他们上课无精打采,作业不能准时完成,无论是专业课还是基础课都毫无无兴趣,没有学习劲头和学习目标,得过且过。

基于以上分析,在中专教学过程中,教师要上好课,需要关注和考虑的问题越来越多,不仅要考虑诸如学生的个性特点、适应能力、接受程度等问题,还要研究教学方法、教学技巧、课件制作,教学效果评估以及其他教学辅助工具等,如何利用数据挖掘技术,从海量数据中提炼出有用的信息,优化教学策略,或者说如何借助现代化的教学设备,使教学过程更生动有趣更能吸引学生的注意力。这些都是在现在的教育环境下身为一个中专教师必须去认真思量的问题。

另根据对本校12级10个班不同专业学生成绩进行聚类分析,得到如下结果:

会计专业的同学,理论知识比较扎实,对纯理论学科比较感兴趣,针对这个特点,对该专业的同学可多开设与理论相关的课程计算机专业的同学的优势是动手能力比较强,对锻炼实际操作能力的科目感兴趣,应增加项目设计类课程,但基础课程应减少。旅游专业、市场营销专业同学希望得到更多去外面实习的机会,实作课成绩比较理想。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又有潜在作用的信息和知识过程。数据挖掘技术主要是从海量数据中找出有用的信息并加以分析利用,在引入教学时必须全面处理好其他因素,比如问卷调查的有效设计,反馈结果的真实性,数据基数是否能进行挖掘,不同专业的学生特点及课程设置、数据挖掘结果的信任度等问题。

参考文献:

[1]JiaweiHanmichelineKamber数据挖掘概念与技术,机械工业出版社,2006.8

[2]吕锋华.数据挖掘处理在教学中的应用[J].金华职业技术学院学报2003Vol.3no.336-38

[3]戴永群.数据挖掘在教学中的应用[J].福建电脑.2005.9:158-159

[4]韩览山.数据挖掘算法及其在决策支持系统中的应用研究[D].北京:清华大学出版社.2002.3

数据挖掘课程设计论文篇9

关键词:教学质量评估;数据挖掘;偏相关分析法

中图分类号:tp274文献标识码:a文章编号:1009-3044(2012)10-2172-03

theapplicationResearchofDatamininginteachingevaluationofindependentColleges

wUYa-li1,YanXiao-liang2,YanGDong-ying1

(1.BusinessCollegeofShanxiUniversity,taiyuan030031,China;2.informationCenterofCertificationandaccreditationadministrationofthepeople’sRepublic,Beijing100020,China)

abstract:itbecomemoreandmoreimportanttotheteachingqualityevaluationoftheuniversity.atfirst,inthispaperwearebasedonteachingevaluationdataoftheindependentcollege,analysisandminingthedataofevaluationwiththesoftwareofdataanalysisanddataminingsoftware.thenwestudythetheoryofdataminingandgiveanewanalysismodeofthedataminingofteachingqualityevaluation.asaresult,wegetmainfactoraboutteacher’steachingquality.

Keywords:teachingqualityevaluation;datamining;partialcorrelation;linearregression

近些年来,我国独立学院的发展为扩大高等教育资源和高校办学规模发挥了不可忽视的作用。独立院校侧重于课堂与实践教学,因此,教学评估是衡量高校教学质量的重要指标。然而,现在高校教学质量评估系统还存在诸多问题。多年来的教学和管理工作积累了海量的数据,但目前对这些数据的处理还停留在数据的统计和查询阶段。怎样能更好的利用这些数据,如何对数据进行深入分析,分析的结果对教师教学工作以提供哪些更有价值的建议是目前我们要解决的主要问题。

该文以独立学院近年来的教学评估数据为例,运用分析数据软件(SpSS)、数据挖掘软件(weKa)对教师教学评估数据进行了数据分析与数据挖掘。在深入研究数据挖掘理论的基础上,提出一种分析挖掘教学质量评估数据的新模式。实验结果表明,该模式效果良好,有利于教学质量的提高。

1数据挖掘技术

最初数据挖掘研究的目的很大程度上是基于对市场购物篮的分析,以便管理者能更好的了解市场情况,从而针对消费者采取更有效的措施。

数据挖掘(Datamining)[1],也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(oLap),从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识

2应用研究

2.1确定挖掘对象、目标

确定数据挖掘的目标,确定数据挖掘的对象是数据挖掘的首要工作。该文中数据挖掘对象是独立学院教师基础信息和教学评估数据。本系统的挖掘目标是从已有教学评估指标中找出对教学评估结果影响比较大的因素,运用合理的指标模型对教师教学质量进行深入分析,最终以达到提高教学质量的目的。

2.2建立数据挖掘库

2.2.1数据采集

1)教师基本信息

数据结构如下:教师号(tno)、性别(Sex)、年龄(age)、职称(profetitle)、学历(education)、是否专职(ext_Full)。

2)课程与教师评估信息

内容主要包括对课程本身和教师教学方面的评估。其中评价课程的目的是评价课程设置的必要性、合理性及教材的质量;评价教师设置了教学态度(e_tea1,e_tea2,e_tea4)、教学内容(e_tea5,e_tea9)、教学方法(e_tea7,e_tea8)、教学手段(e_tea3,e_tea6)、教学效果(e_tea10)等十个条目,目的是评价教师的课堂教学质量。均采取量化评价的方法,数据结构表如表1:

表1课程与教师评估信息数据结构

其中课程评价总分100分,共4项,每项25分;教师评价总分100分,共10项,每项10分。课程评价和教师评价均分四个等级,并设置了a、B、C、D四个级差,其权重依次为0.95、0.7、0.6、0.4。评价总分按照公式m=∑Kimi计算得到课程评估结果(e_CourReault)和教师评估结果(e_teaResult),其中Ki为第i个条目的权重;mi为第i个条目的分值。

2.2.2数据挖掘库的建立

数据预处理包括数据挖掘库的建立、数据分析、数据转换。数据预处理的目标是将数据进行转化,然后在数据集中剔除不合理的信息,整合成能被数据挖掘算法利用的数据,最终存入数据挖掘库。

该文运用一定的数据分析方法和数据挖掘技术进行数据分析挖掘。首先,为收集数据并建立数据库。数据来源为的“教师基本信息库”,“教学评估数据库”。其次是教学评估数据分析,是在以上两个数据库的基础上按照需求进行关联,涉及了四个数据表:tea_info(教师信息表)、Cour_Standard(课程指标信息表)、tea_Standard(教师指标信息表),eva_reault(评估结果表),其中,eva_reault是教学体系指标编号和教师编号的关联表.有这些表生成数据挖掘库。主要字段包括:教师号、性别、年龄、职称、学历、是否专职、课程评价、教师评价、评估结果等字段。

2.3数据预处理

数据分析的目的是筛选出对评估结果影响较小的指标,进一步缩小对评估结果影响的范围。

偏相关分析[2](partial)是研究两个变量的相关性的一种方法,为了找出任意两个变量之间的关系,首先要控制与这两个变量有联系的其它变量,使其保持不变.在分析中,当其它变量被固定后,给定的任意两个变量之间的相关系数,叫偏相关系数[5],它表示在其余变量保持不变时,这两个变量之间的相依程度。

偏相关系数可以度量p个变量x1,x2…xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-2个变量的影响下的线性相关。

相关系数可以度量两个变量x1,x2之间的线性关系的程度.表达式为:

偏相关系数反映了相依关系中变量之间的相互重要性,如果x1和x2之间的相关性只是基于x3的公共影响,那么r123,≈0。这也可以看成在消去干涉变量后显示出来的相关性。

要确定各影响因素与教学评估结果的相关程度,首先要确定一个变量来衡量教师教学质量,评估结果就是衡量教师教学质量的变量。然后计算出所有影响因素与教学质量的偏相关系数,从而剔除掉对教学质量效果影响较小的因素。

由偏相关分析可以得到属性之间的变量值,其中每个变量对应的三个属性值依次为:偏相关系数,实际显著性概率,自由度数。其中,偏相关系数代表的是关系的密切程度,实际显著性概率是使因子与教学评估结果之间的相关系数为零的假设成立的概率,自由度数即计算时的自由度数。其中,e_tea4与e_teaResult的关系是最密切的,相关系数为0.691,显著性水平为0;其次是e_tea6,相关系数为0.651,显著性水平为0;下来是e_tea2,相关系数为0.599,显著性水平为0。

分析表明影响教学评估结果的主要因素,在偏相关分析的基础上去掉了Sex、age、education、profetitlee_Cour1、e_Cour2、e_Cour3、e_Cour4、e_CourReault、e_tea3、e_tea8、e_tea9和,这些相对影响不大的因素。

2.4数据挖掘

在偏相关分析的基础上,采用weKa的序列挖掘模式,支持度为70%,程序给出e_teaResult与ext_Full、e_tea1、e_tea2、e_tea4、e_tea5、e_tea6、e_tea7和e_tea10之间线性依存关系,如图1:

图1评估指标依存关系图

结果表明:

1)教学态度对于教师的质量评估起着至关重要的作用,因此,首先要端正教师的教学态度,充分认识到自己的职责和作用,发挥教师的主人翁精神,投入到教学工作中去,在学生中建立自己的威信。

2)在大力倡导素质教育的今天,教师除完成教学任务外,还要注重与在课堂上学生交流互动,进行心与心的沟通,这是一种必不可少的教育方法。

3)在大力倡导素质教育的今天,教师除完成教学任务外,还要注重与在课堂上学生交流互动,进行心与心的沟通,这是一种必不可少的教育方法。

4)独立学院是以培养实践人才为主教育模式,其次,枯燥的理论知识无法引起学生浓厚的兴趣。因此,案例教学,将理论与实践教学相结合,可以得到更好的教学效果。

5)不可以否认,兼职教师在独立学院发展过程中很大程度上缓解了独立学院师资紧缺矛盾,但他们毕竟精力有限,更重要的是多数兼职教师缺乏主人翁责任感,对教学采取应付或敷衍的态度,他们的教学方式可能从某种角度来说不适合独立学院学生的发展。因此,学校必须加强师资队伍建设,培养适合于自己发展的教师。

3结束语

该文基于独立院校教学评估数据,运行数据分析和挖掘技术,将教学评估结果运用偏相关分析方法进行数据分析,采用序列模式挖掘出影响教师评估结果较大的指标以及指标之间的相关性,能够让学校管理者从中发现教师教学活动中的主要问题,为独立院校教师招聘工作和教育质量改革提供有价值参考意见.同时,教师本人能够根据自己的教学质量评估结果进行调整,从而提高自身的教学质量。

参考文献:

[1]agrawalR,SrikantR.miningsequentialpatterns[C].procinternationalConferenceonDataengjneerjng,tajpej,taiwan,1995:3-14.

[2]钟晓,马少平,张钹,等.数据挖掘综述[J].模式识别与人工智能,2001,14(1):48.

[3]白雪.高校教学质量评估数据的分析挖掘系统[D].南京:南京理工大学,2007.

[4]何晓群,刘文卿.应用回归分析[m].北京:中国人民大学出版社,2001.

[5]赵健,傅莉.数据挖掘在本科教学评估中的应用[J].高教发展与评估,2008,24(1):66.

[6]周峰.数据挖掘理论在高校教学评估中的应用[m].南昌:南昌大学,2009.

数据挖掘课程设计论文篇10

关键词数据挖掘;信息可视化;可视化教学

中图分类号tp392文献标识码a文章编号1674-6708(2011)37-0251-03

信息时代的来临让我们面临着海量的信息,于是从这些信息中检索和分析出我们想要的数据就变得越来越困难,而信息可视化技术以及数据挖掘技术却可以帮助我们处理这些洪水般的信息,信息可视化数据检索的优势就在于可以让用户直接参与数据挖掘的过程。我们先来看一下数据挖掘以及信息可视化的基本概念。

1相关概念

1.1信息可视化

信息可视化是现代计算机技术中一个迅速发展起来的领域,人们可以通过它来进行视觉信息搜索以及相关的信息探索,是“以计算机支持的、交互的用来表现抽象数据和扩大认知的视觉表示法”[1],信息可视化的信息搜索过程是在可视的界面上进行交互的数据浏览以及分析,用户可以规定要点或者方向,如果数据信息目标不明确或者信息量少,就可以成为信息检索以及数据库查询的有益补充。

1.2数据挖掘的基本概念

数据挖掘Dm(Datamining),也可以称之为数据库中的知识发现,根据Usama、m.Fayyy等给出的定义就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[2]。数据挖掘就是在大量的数据中提出有用的知识。

2数据挖掘在信息可视化教学中的应用价值

而我们由以上信息可视化和数据挖掘的定义可以看出,把数据挖掘应用于信息可视化的教学活动中,也有着非常重要的价值,其主要可以体现在以下几个方面。

2.1教材多媒体化

利用多媒体技术展示出可视化的信息,从而使教学内容更具形象化、动态化以及结构化。教学活动的辅助工具,比如教材、工具书、电子课件等都呈现出多媒体化的发展趋势,它们不但包含了更为丰富的、大容量的图像和文字,还可以呈现出动画、声音、录像等,甚至包括模拟的三维场景。通常情况下多媒体教材的制作采用的都是二进制的制作、处理和信息的传递,将相关信息附加其主体中,从而为数据挖掘提供了实现的可能性;而与传统的纸质教材相比,多媒体课件涉及到的信息量大、形式多样,于是数据挖掘技术就应运而生,迎合了多媒体课件中对海量信息进行搜索和分析的功能。

2.2资源全球化

可以说网络资源是全世界最大的教育资源库,不仅信息量大,而且资源类型多种多样。其教育资源包括各种教育书刊、大大小小的教育网站、各类虚拟的图书馆、软件库等等,方便了教育工作者进行所需教育资源的查询和应用,但是由于网络资源还存在大而无当、缺乏组织性等现实情况,导致网络信息的利用率相对比较低。并且网络技术的发展越来越快,因特网每天都会新增上千万个文件,并且平均每8个月都会增长一倍,而在全球范围内的服务器数量更是每年都成几何倍数递增[3],在这种情况下的信息搜索就如同大海捞针。以上情况如果利用数据挖掘技术,就可以将海量信息实现数据结构化,从而方便了用户的搜索和查询。

2.3教学个性化

传统的教学活动中老师与学生的交流是面对面的,老师凭借着经验对学生做出个性特点以及接受能力的判断。而信息化教学则是将学生相关信息的采集活动由人工的形式转向自动化,智能系统将输入的学生相关信息进行分析,从而为教学活动提供帮助。但是系统毕竟是根据一定的程序规则编写的,因此给出的信息是仅仅是在一定规则下形成的,很多时候还是无法判断其是否准确。这种情况下就可以借助数据挖掘技术,将大量的可视化信息进行深入挖掘,而后提取分析,从而得出更为准确的信息资料。

2.4活动合作化

团队合作能力是现代社会中必不可少的一项基本能力,而合作学习的形式也多种多样,比如借助计算机进行网上合作学习,或者将计算机当做合作伙伴进行合作学习等等。但是不管哪种合作学习形式,都有大量的信息需要接受或者反馈,才能及时的做出判断达到提高能力的目的。如果信息处理不及时或者不妥当,那么面对“泛滥”的信息反而会有信息“匮乏”之感,因此在这种情况下运用数据挖掘技术可以将海量的数据信息进行有效的整合及传输。

2.5管理自动化

计算机管理教学系统朝着在网络中建立电子学档功能的趋势发展,电子学档包括了学生的活动记录、身份信息、电子作品以及评价信息等各个模块。电子学档可以帮助改革教学评价模式,实现评价活动面向学习全过程的目标。但是实际设计开发中这种做法非常有难度。主要有3点原因:首先是系统分析处理的特性与学生进行事物处理的特性不同。一个计算机教育系统则相对要复杂,因此就要用到数据挖掘组件将处于同一环境中的两种应用进行协调处理;其次,一般计算机教育系统中的数据相对分散,对于信息的采集和分析都比较不利。这时就可以利用数据挖掘技术将这些数据集成、整合,并根据学生对信息的反馈进行及时的动态更新,最终将这些信息反馈给老师;最后,现在很多计算机教育系统对于历史数据的利用率不高,因此如要老师要想在大量的历史数据中找出教学线索是非常困难的,并且适时数据与历史数据相比较才可以反映出学生的变化情况。因此数据发掘技术的运用就变得非常有必要。

3数据挖掘在信息化教学中的应用难点

第一,数据挖掘还仅仅只是一种信息工具,其作用是通过历史数据来预测出学习者未来的行为,但很多时候其实学习者自身都无法规划下一步具体要做什么,因此,这样的预测只能说一是种概率;第二,数据挖掘技术即使可以预测到学生将来的行为,但并不显示预测的依据和过程,即学生为什么会出现这样的行为等,比如一个课堂上很认真听讲的学生成绩却很差等等,这其中的根本原因无法通过数据挖掘来实现;第三,数据挖掘在信息化教学中的应用还处在发展中阶段,并且数据挖掘包含神经网络、人工智能、模糊理论、数理统计等多项技术。另外,学生的学习过程、学习特征和学习结果很多时候都无法用数量的方式表达,所以相对来说要进行数据挖掘的开发有一定的难度;第四,学生的特征需要利用数据挖掘技术来提取,这就会涉及到文化背景、社会环境以及价值理念等各个方面,因此对于该项技术的开发和应用都有一定的影响。

4数据挖掘在信息可视化教学中的应用范围

4.1教学管理

学生的知识结构和学习风格是在校学生的基本特征。其中,学生正在学以及将要学的知识的掌握构建了学生的知识结构,主要包括学生的基础技能、当前技能以及目标技能三个方面;而学习风格则更侧重于学生的社会特征、心理特征以及生理特征等。数据挖掘技术可以通过对学生状态的掌握以及学生特征的分析,达到帮助学生修正学习行为的目的。将学生的特征分析结果与行为目标标准做比较,学生根据比较的结果进行学习行为的修正,完善人格、提高能力。并且计算机在教学管理方面的应用越来越广泛,老师以及学生的各种信息,比如工作、学习、处罚以及奖励等都被储存在教学管理数据库中。所以利用数据挖掘的演变分析以及关联分析,可以在数据库中挖掘出更有价值的数据,从而分析学生的日常行为,找出行为之间的内在联系。

4.2教学评价

教学评价的过程,就是根据教学的一般规律和教学大纲中制定的目标要求,通过系统收集相关信息,对教学活动和教学结果进行价值的判断。其主要内容是对学生“学”的评价以及老师“教”的评价。现在我国高等院校的评价指标主要以学生的课堂教学评价指标以及综合测评指标为主,但是却无法准确的判断出各指标的重要程度、它们之间的关联性以及指标的存在是否合理等情况。如果将数据挖掘中的关联规则模型以及粗糙集理论用于评价系统中,就可以对指标进行约简、排序,优化评价指标,从而找出更为简单易行的、科学的评价方法[5]。此外,学习评价也属于老师的重要职责,对学生的学习行为进行科学评价,既可以激发学生的学习动机,又可以通过学生所反馈的信息检查教学程序、课程计划等。利用数据挖掘技术对学生的行为记录、学习成绩、奖励处罚等各个数据库的信息进行处理分析,及时得出对学生的评价结果,如有偏差做出及时的纠正,还可以克服人为评价中不客观、不公正的缺点。

4.3课程设置

高校的课程设置一般都是遵循“先基础、后专业”的规律,进行循序渐进的学习。不过即使一般规律是特定的,每个学期的课程也不能一成不变,因此要合理的设置每学期的课程,既要使其遵循一般的教学规律,又要符合学生的实际情况。比如同一课程由不同专业的学生学习时,其总体成绩会相差较大。这时可以将教学数据库中存放的历史成绩,利用数据挖掘的时间序列以及关联分析功能,从历史数据中挖掘出相关信息,并分析其中的回归性、相关性,从而找出具有价值的信息以及规则,最终得出影响学生成绩的真正原因[6]。

4.4教学过程与教学方法

在一门课程的教学活动中,老师一般会利用多种教学方法实现教学目标,比如案例法、实验对比法、讨论法、参观学习法、调查法以及多媒体辅助法等。这些教学方法经过大量学生、多个班级以及不同教学任务的实践后,储存在教学数据库中。可以利用数据挖掘技术,对数据库中的相关数据进行深入挖掘和分析,从而找出对应专业可以采取何种教学方法,可以更好的满足教学要求。这种方法可以帮助学生有效的吸收和理解相关专业知识。当课程结束以后,再把每个学生的成绩结合教学方法的评价,运用数据挖掘中的关联规则以及回归线性分析做出判断,这种方法对于分层教学、分类教学都有着非常重要的指导意义和推广意义。

5数据挖掘在信息可视化教学中的具体应用

我们以数据挖掘技术在信息可视化教学中的教学评价为例,来说明其具体应用。

5.1采集数据

5.1.1数据集成

把来自多个不同数据源的数据进行集成合并,将数据采集所得到的多个不同的数据库文件,利用相关的数据库技术生成分析学生成绩信息的基本数据库。

5.1.2数据清理

数据清理最主要的工作,就是对遗漏的数据值进行补充。由于学生的成绩信息基本数据库中很有可能缺乏我们所需要的、对研究有所帮助的属性值,所以,我们可以利用数据清理技术来补充这些空缺。

5.1.3数据转换

数据转换是针对数据做规格化的操作。因为除了个别的连续值属性外,大部分均为离散值属性,因此要把连续值属性作离散化处理。可以采用概念分层技术,把连续值属性离散化。直方图分析法是一种相对比较简单的离散方法,其分为等深分箱以及等宽分箱两种。

5.1.4数据消减

数据消减的主要目的就是缩小挖掘的数据规模,但对挖掘结果却不会造成影响。可以利用消减维数法,从初始的特征属性中搜寻有用的特征属性,从而减少挖掘时需要考虑的变量个数或者特征属性。

5.2数据分类挖掘

其目是就是为进一步建立成绩分析决策树的模型而做。通常在训练集相对较小的情况下,分类挖掘可以采用C4.5或者iD3算法,本文采用iD3算法。

5.2.1iD3算法

该算法从决策树的根节点的训练样本开始,选择一个属性对这些样本进行区分,每一个属性值都产生一个分支,再把分支属性值的相关样本子集移至新生的子节点。这种算法递归的应用于各个子节点,直至一个节点中所有的样本都被分配至某类中。iD3算法采用的是由上至下、分而治之的递归方法构建决策树。

5.2.2属性的选择

可以采用信息增益的办法来选择属性。通常选择有最高信息增益的属性,作为当前的节点测试属性,从而保证了在对训练样本子集分类时的信息最小化,确保决策树的结构最为简单。

6结论

总之,信息化的教育使得信息容量急速增长,对于信息的搜索以及提取分析也有了更高的要求。利用传统的搜索技术从海量的信息中找出决策依据,变得越来越困难。因此我们必须借助数据挖掘技术,找出海量信息中隐藏的模式或者规律,从而为信息可视化教学提供更加有力的技术支持。虽然作为一种工具,数据挖掘不可能取代老师的作用和地位,但是它却为老师的决策分析提供更为科学和简便的依据,为传统教学中难以获取的教学模型的建立提供了更为便捷的途径。

参考文献

[1]韩子良,毕杼.数据可视化在数据挖掘中的应用[J].计算机应用与软件,2003(11):71-73.