首页范文化学数据分析方法十篇化学数据分析方法十篇

化学数据分析方法十篇

发布时间:2024-04-25 19:14:54

化学数据分析方法篇1

关键词:大数据大数据分析方法情报研究适用性

中图分类号:G250.2文献标识码:a文章编号:1003-6938(2014)05-0013-07

preliminaryStudyontheBigDataanalyticsanditsadaptabilityinintelligenceStudies

abstractBigdataanalyticshasbroughtnewopportunitiesfordata-orientedorinformation-orientedintelligencestudies'development.Basedonexistingresearch,theauthormakesareviewofthreeviewpointsofbigdataanalyticsbasedondata,processandinformationtechnology,andthensummarizesfivelevelsofanalyticswhichincludingstatistics,mining,discovery,predictandintegrate,andits17kindsofrelevantresearchmethods.theadaptabilityofbigdataanalyticsintheintelligencestudiesisdiscussedanditisfoundthat10researchmethodscanbedirectlytransplantedtointelligencestudies,2researchmethodsshouldbeadjustedfortransplantation,2researchmethodsareinapplicable,and3researchmethodsneedfurtherstudy.

Keywordsbigdata;bigdataanalytics;intelligencestudies;adaptability

大数据分析(BigDataanalytics,BDa)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDa通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDa的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDa的定义及过程来看,BDa与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDa方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDa的方法体系,然后探讨BDa方法在情报研究中的适用性。

1大数据分析的方法分类

到目前为止,尚没有公认的BDa方法的分类体系,甚至对BDa包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1相关研究

不同学者对BDa方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDa方法分类。这类研究主要是以BDa处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDa方法进行分类。

power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②n体问题(n-bodyproblems)(如最邻近算法、Kernel算法、pCa算法等);③图论算法(Graph-theoreticalgorithm);④线性代数计算(LinearalgebraicComputations);⑤优化算法(optimizations);⑥功能整合(如贝叶斯推理模型、markovChainmonteCarlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(SpatiotemporalData)的BDa方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fouriertransform)及自相关匹配(autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learninganalytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

mohanty等人[3]从数据获取(Dataingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaminganalytics),以预定模式及时处理数据流;②高速的数据采集(HighVelocityDataingestion),不转换任何格式,可稍晚处理;③链结分析(Linkageanalysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-eventDetection),从庞大数据集中寻找特定模式;⑤数据聚合(Datamash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(textanalytics),如观点挖掘或社会网络分析等;⑦时间序列分析(time-Seriesanalysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(DataForensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、etL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在Qa系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDa方法分类。这类研究主要是依据BDa的步骤和阶段对BDa方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDa是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDa方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDa方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(materialization)或etL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如mapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDa国际研讨会[13-14],会上分别就BDa中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在mapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如mainmemoryapproach、Disk-Basedapproaches、Database-orientedapproach)及图像比对分析(如特征提取、iterativemethods)等进行了探讨。2013年ieee计算机协会在美国召开大数据国际研讨会,BDa结合mapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了map-BasedGraphanalysis、Sketch-BasedLoadBalancingalgorithm、LargeScaleneuralnetworks等方法。

1.2BDa方法的分类――面向层次的BDa方法框架

上述三种视角的BDa分类各有特点,都有一定的道理。从面向数据的视角来看,BDa方法正从统计(Statistics)转向挖掘(mining),并提升到发现(Discovery)和预测(prediction)。基于流程的BDa分类则更能反映BDa过程的集成性(integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDa分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的mapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDa方法。在此,本文提出一个面向层次的BDa分类框架,将BDa方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDa相关方法(见表1)。

2BDa方法在情报研究中的适用性探讨

如前所述,BDa与情报研究在本质上有共同之处,BDa方法可为情报研究提供借鉴,因此,探讨BDa方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDa方法在情报研究中的适用性进行分析。

2.1可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDa方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URis及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSi模型、基于pLSi模型、基于LDa模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDa模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(DimensionalityReduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如pCa、LSi、nmF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XmL模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XmL模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XmL的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或etL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(periodicBehavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于eRp的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3不适用的方法

考虑学科领域差异,本文认为“翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(actionableDecision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如Dna编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UneSCoiite机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4需要继续关注的方法

基于mapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,mapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、etL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过Bi系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于mapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDa方法框架,归纳总结了其中的17种BDa方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDa相关方法提供参考,促进情报研究的理论与实践发展。

参考文献:

[1]LavalleS,Lessere,ShockleyR,etal.BigData,analyticsandthepathFrominsightstoValue[J].mitSloanmanagementReview,2011,52(2):21-32.

[2]Russomp.BiGDataanaLYtiCS[R].theDatawarehousinginstitute,2011.

[3]mohantyS,Jagadeeshm,SrivatsaH.BigDataimperatives-enterpriseBigDatawarehouse,Biimplementationsandanalytics[m].newYork:apress,2013.

[4]Computingcommunityconsortium.ChallengesandopportunitieswithBigData[R].washington,DC:ComputingResearchassociation,2012.

[5]powerDJ.Using"BigData"foranalyticsanddecisionsupport[J].JournalofDecisionSystems,2014,23(2):222-228.

[6]nationalresearchcouncil.FrontiersinmassiveDataanalysis[R].washington,DC:thenationalacademiespress,2013.

[7]LiZH,HanJw.miningperiodicityfromDynamicandincompleteSpatiotemporalData[a].Chuww,DataminingandKnowledgeDiscoveryforBigData[m].Germany:SpringerBerlinHeidelberg,2014:41-81.

[8]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,23(2):5-11.

[9]ChenHC,ChiangRHL,StoreyVC.Businessintelligenceandanalytics:FromBigDatatoBigimpact[J].miSQuarterly,2012,36(4):1165-1188.

[10]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.

[11]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[12]覃雄派,王会举,杜小勇,等.大数据分析――RDBmS与mapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[13]SengameduS.Scalableanalytics-algorithmsandSystems[a].SrinivasaS,BhatnagarV.BigDataanalytics[m].india:SpringerBerlinHeidelberg,2012:1-7.

[14]mehtaS,SubramaniamLV.tutorial:Socialmediaanalytics[m].BhatnagarV,SrinivasaS.BigDataanalytics[m].india:Springerinternationalpublishing,2013:1-21.

[15]王炼,武夷山.方法移植对科学计量学研究的方法论启示[J].科学学研究,2006,24(4):503-507.

[16]KroezeJH,mattheemC,BothmatJD.DifferentiatingData-andtext-miningterminology:the2003annualresearchconferenceoftheSouthafricaninstituteofcomputerscientistsandinformationtechnologistsonenablementthroughtechnology[Z].Southafrica:2003:93-101.

[17]祝清松,冷伏海.基于引文内容分析的高被引论文主题识别研究[J].中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海.基于文献的知识发现的应用进展研究[J].情报学报,2006,25(6):700-712.

[19]李楠,张学福.基于关联数据的知识发现应用体系研究[J].图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利.观点挖掘综述[J].计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009:(1):94-99.

[22]赵洁,温润.基于新词扩充和特征选择的微博观点句识别方法[J].情报学报,2013,32(9):945-951.

[23]单斌,李芳.基于LDa话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49.

[24]贺亮,李芳.科技文献话题演化研究[J].现代图书情报技术,2012,(4):61-67.

[25]查先进.信息分析[m].武汉:武汉大学出版社,2011.

[26]LakshminarayanC.HighDimensionalBigDataandpatternanalysis:atutorial[a].BhatnagarV,SrinivasaS.BigDataanalytics[m].india:Springerinternationalpublishing,2013:8302,68-85.

[27]胡洁.高维数据特征降维研究综述[J].计算机应用研究,2008,(9):2601-2606.

[28]吴晓婷,闫德勤.数据降维方法分析与研究[J].计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695.

[30]白如江,冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践,2014,37(1):94-99.

[31]化柏林.多源信息融合方法研究[J].情报理论与实践,2013,(11):16-19.

[32]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰.论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等.时间序列周期模式挖掘的周期检测方法[J].计算机工程,2009,35(22):32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J].计算机科学,2013,(S2):251-254.

[36]BellazziR,Diomidousm,Sarkari,etal.Dataanalysisanddataminingcurrentissuesinbiomedicalinformatics[J].methodsofinformationinmedicine,2011,50(6):536-544.

[37]negashS.Businessintelligence[J].CommunicationsoftheassociationforinformationSystems,2004,13(1):177-195.

化学数据分析方法篇2

进入新世纪以来,随着我国信息化发展的速度越来越快,在这种环境的影响下,我国的教学部门也开始将信息化和数字化的理念融入到教学中来。就拿广东外国语学院来说,在03年底,学校自从接受了市教育部的评估之后,学校在教学中开始融入信息化技术和数字化技术,使得学校的教学管理和发展呈现直线上升的趋势。随着信息化时代的来临,学生们在对教师的工作进行评分时,由传统的笔答方式逐渐演变为应用计算机进行评分,而教师在对学生的每次考试成绩进行公布时,也将传统的纸质评分逐渐演变为应用计算机进行评分,教师和学生也可以应用计算机技术进行选课或者学习,而学校的教学系统也由传统的办公室自动化系统逐渐演变为数字化对外公开系统。随着各个学校将信息化技术和数字化技术融入到教学中来,不仅有效地提升了学校教学的整体效率,同时也给学校节约了大量的人力资源和物力资源,促进了我国教学的进一步发展。与此同时,随着学校将信息化技术应用到教学中来,它也给学校的管理工作和教学方式积攒了大量的参考数据。其中包括学生所有考试成绩管理数据、教师教学质量和学生对教师教学方式的评分数据、教师和学生考试管理数据以及教师的专业知识培养数据等。这些数据的存在,不仅是辅助学校教学管理的重压工具,更是给学校教学的今后发展奠定了扎实的基础。但是,根据目前的情况来看,我国的各个学校的教学和管理工作一直处于起步阶段,因此,这些数据还没有得到各个学校的广泛使用。基于现在的情况来看,各个学校可以借助这些数据并进行充分的挖掘,不仅可以有效地提升整个学校的教学质量,同时也给学校的今后发展奠定了重要的条件。

1概述

数据挖掘(Datamining),也被人们广泛称作数据开采,建立在一个全新的角度出发将各个领域的技术进行结合得出的产物,其中包括数据库技术、知识发现技术(KDD技术)、数据统计技术等。它的主要原理就是将所需要对数据从大量的数据库中搜索出来,并将这些数据进行充分的挖掘,将这些数据中最有利用价值和具备潜在效益的一面进行利用,并将这些挖掘的数据进行高级处理的整个过程就叫做数据挖掘。见图1所示:

数据挖掘可以从两个层次进行解释:在浅层次上,数据挖掘可以借助数据库管理系统的三个功能分别是数据查找功能、数据探索功能以及数据报表功能,与两种数据分析法进行结合,其中包括多维数据分析法以及数据统计分析法,在实现联机将这些数据进行分析处理,进而得出所需要的参考数据。在深层次上,数据挖掘可以将数据库中前所未闻的数据或者隐性的数据探索出来。并将数据库中可以利用的数据进行高校的挖掘和索取,进而给人们提供更好的参考数据,并将这些数据进行充分、合理的应用。

2数据挖掘方法

在对数据挖掘进行充研究时,由于数据挖掘涉及的科学领域比较众多,因此,数据挖掘的方法也以很多的形式表现出来。第一方面传统统计分析方法;第二方面就是机器学习方法;第三方面就是数据库方法。要想真正实现注入三方面的内容,下面就是笔者对这三方面的详细介绍。

2.1传统统计分析方法

传统统计分析方法主要包含五个方面的数据分析,第一个是判别分析;第二个是回归分析;第三个是聚类分析;第四个是探索性分析;第五个是支持量分析。传统统计分析方法的原理为,用户首先要提供所要假设的参数,然后在由系统将这些参数进行数据验证。传统统计分析方法存在很多弊端,例如经过训练之后才能进行使用,由此同时,在进行数据探索时,为了保证数据的真实性,用户需要进行多次操作。在统计学习理论中,被人们探索出的一种新型学习方法就是支撑矢量机(SVm),建立在计算学习理论的结构较小风险的原则之上,可以提升学习机的泛化能力。

2.2机器学习方法

机器学习方法主要包含三个方面,第一方面是归纳学习法;第二方面是基于范例推理法;第三方面就是贝叶斯网络。基于范例推理法的工作原理就是借助原理的实验或者方式来对于指定的问题进行求解。据目前情况来看,我国的对机器学习方法进行探索的方向是把范例推理同格子机和最近邻原理相进行充分结合。除此之外,基于多关联规则的分类算法是一种具有较高的效率以及较强的适应功能的机器学习算法。

2.3数据库方法

数据库方法主要包含三种方法,第一种是基于可视化的多维数据分析方法;第二种还是oLap方法;第三种面向属性的归纳方法等。

3数据挖掘在教学中的应用

3.1学生成绩数据挖掘

每个学校都会在期末的时候对学生的成绩进行统计,其中包含学生的平时成绩、学生的考试成绩以及各科教师对学生的考查成绩等,在教学的过程中应用数据挖掘技术,不仅可以给学生在查询自己的各项成绩时提供便利,同时也给可学生的综合成绩进行统计。应用关联分析法,不仅可以将学生的各项成绩进行充分的挖掘,同时还可以让学校及时地了解学生的各项成绩、学生的全部信息、学生的专业发展、教师的教学质量以及其他未知信息等之间存在的联系。在每个学校的期末结束以后,学校的全体人员可以利用数据挖掘技术对各项数据进行查询以及统计之外,还可以从中吸取一些经验,这对教师以及学校的管理人员在面对新的学期时的工作与教学管理提供了重要的意义。

3.2教师课堂教学评分数据挖掘

根据目前情况来看,许多学校开始使用计算机评分方法让学生给教师进行教学质量评分。在学校期末工作结束之后,教师可以应用计算机来查询学生对自己教学质量的评价,学校教务部们可以根据学生对教师教学质量的评价标准来制定新的学期的教学方案,并根据学生给教师做出的评价来给教师进行排名,并利用数据挖掘技术将这些数据进行充分的分析,并根据分析出的结果对各科教师的教学成果和教师具备的专业素质、学生自身具备的综合素养、评分标准的判定以及指标之间衡量值的设定进行挖掘,进而让教师了解教师的教学方式也及教学质量与学生的各项成绩有着直接的影响。见图2所示:

化学数据分析方法篇3

关键词:高职教育;个性化学习;数据挖掘;商业智能

中图分类号:tp311.13

作为我国高等教育一支重要生力军――高等职业教育近几年来的发展可谓迅猛,无论是学校数还是学生人数,高职专科的规模已是我国高等教育的半壁江山。高职教育对人才的培养目标是为国家和地方经济的发展输送适应生产、建设服务等一线急需的应用型高素质人才,《国务院关于大力发展职业教育的决定》中就提出了“坚持以就业为导向,深化职业教育教学改革”,要求加强职业院校对学生实践能力和职业技能的培养。

1现状

目前,高职学生在学校完成系统的课程学习依然是高职教育教学的主要方式,在此过程中,由于学生个体特性、就业意向、专业方向等各种因素的影响,获取的知识无论从方式方法、内容结构,还是真正掌握的程度来说都因人而异,而这其中有相当大的部分是学生主动性选择的结果;此外,在高职教育教学改革的尝试中,大类招生、拓展专业等多项措施在很多职业院校中已然试行,这就给予学生更多的自和选择的机会。

然而,在自主选择的过程中,由于没有一个可参照的、适合自己的挑选标准,高职学生进行各项选择时在很大程度上有着“扎堆随大流”、“哪个课能混好过”的心理,这就导致主动选择的课程,其学习过程并不顺畅、学习效果也不理想,没有提升自身知识结构的质量。这种高职教育中教与学环节的脱节会对高职学生的能力培养产生有着不可忽视的影响。

2研究思路

随着教育信息化的深入发展,先进的信息技术手段在教育教学的方方面面都得以有效利用,这也为学生综合能力培养的探索与尝试提供了新的途径,数据挖掘技术就是其中很重要的一种。数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在此过程中,数据源必须是真实的、大量的、含噪声的,而从中发现的是用户所感兴趣的知识内容,这些知识应该是可以接受和理解、并且能加以进一步运用的。

数据挖掘技术之所以在教育行业有更为广泛、实际的应用,这是由于各个学校都会有自己的一整套数据库系统,用于记录学生的学籍信息、课程教学过程等历史数据,这样,就可以尝试运用先进的数据挖掘技术和智能分析工具,通过对高职教育研究和教学过程中积累的海量数据进行采集分类、挖掘和分析,从多角度、多层次出发,构建识别个体特点、知识构成和获取方式等要素之间关联模式的数据模型。数据挖掘是一门交叉学科,其理论和方法有很多,包括K-最近邻分类器、判别分析、人工神经网络和分类树等,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这里就是要将数据挖掘方法与高职教育教学研究相结合,设计实际的分析应用系统,具体来说:

(1)数据挖掘技术面向高职教育这一特定领域中的主体――高职学生,针对专门的指标,包括个体特性、专业要求、就业意向等,着眼于课程这个知识载体,对它们之间的关系进行深层次、智能化的挖掘、分析;

(2)数据挖掘的应用会具体到建模、变量筛选和导入等方面,而不只是一些抽象的挖掘算法的研究;

(3)数据分析采用先进的商业智能工具,同样,数据的展现手段基于平台,具有开放化、模块化、网络化特点。

3系统框架

系统定位于个性化学习分析,其框架结构参见图1,主要由数据集成、数据建模、数据分析及展现等部分构成。具体来说,数据集成模块完成定义数据结构、装载、清洗、合并数据的功能;数据建模是指建立数据分析oLap及数据挖掘模型;数据分析旨在分析和比较各种不同算法得出的结果,寻找最为匹配的算法,而数据展现的作用是根据分析结构灵活创建数据报告。

图1系统框架结构

在此架构下,各个子系统的功能如下所述:

(1)数据集成。分析和归纳课程教学过程中产生的系列数据,根据其特征和行为设计及定义便于分析和挖掘的数据结构,然后并进行数据集成。数据集成的工作包括从异构数据源获取数据,将其进行清洗、转换、合并,然后加载到数据仓储中。数据集成执行的时间、相互的顺序、成败对将来的分析结果的有效性则至关重要。

(2)数据建模。典型的数据挖掘工具将在构建了数据仓库后进行分析并生成结果,一些工具也可以使用关系型数据进行分析,数据分析的结果独立于数据仓库中使用的数据。数据挖掘核心的部分就是选择挖掘算法并建立数据模型,这样就可以根据学生个体信息、学生成绩等数据之间的关系将这些学生划分成分析有意义的组群并预测他们的行为;当把这些组发送回分析过程时,数据挖掘引擎允许分析人员和用户根据这些簇进行划分和细化。

(3)数据分析与展示。以学生个体信息和课程数据为输入,利用所筛选出的最佳建模方法,逐步提出一个可实现个性化学习分析的数据模型,以衡量及提高模型预测的准确度。将分析结果以特定的客户端或web方式进行展现,以建立的分析结果展示平台,具有高度的开放性、通用性和可扩展性。通过建模创建了正确的模型,数据挖掘的重点就从分析转到结果上,数据报告的展现方式有多种,可通过专业的报告工具,也可自行编写web网站进行。

4结束语

在高职教育教学研究中运用先进的数据挖掘技术手段,针对各项课程教学、学生管理数据进行深度挖掘、分析,研究个性化学习模式,为学生的自我学习规划提供具体化、智能化分析结果以供参照,在此情况下,先进技术手段的支持,对教与学都有着不可忽视的影响。同时,也为人才培养的探索与尝试提供新途径。

参考文献:

[1]赵云鹏,石丽,刘莹.基于数据挖掘的高校规模分析及应用研究.第九届全国信息获取与处理学术会议论文集[C].2011.

[2].数据挖掘在高职院校教学管理中的应用[J].清远职业技术学院学报,2010(12).

[3]干娟.基于决策树算法的学生综合测评系统的设计[J].安徽电子信息职业技术学院学报,2011(04).

化学数据分析方法篇4

【关键词】大数据信息处理

互联网被认为是二十世纪人类最伟大的发明之一,数十年间,它迅速影响着我们每个人的生活方式,甚至思维习惯。如今,另一个新事物――大数据的诞生,被称为是继互联网之后的又一次it革命。

1大数据的概念

大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每日新增数据10tB,要处理超过100pB的数据;腾讯总存储数据量经压缩处理以后在100pB左右,并且这一数据还在以日新增200tB到300tB,月增加10%的数据量不断增长,现在正在为1000个pB做准备。但仅仅是数据量并不能区分大数据与传统的海量数据的区别。比较有影响力的Gartner公司给出了大数据的定义:大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发展和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息。

2大数据处理技术

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据Cap理论,难以保证其可用性和扩展性。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!大数据的出现也必然伴随着新的处理工具和新技术的出现。

2.1基于数据采集的大数据处理技术

2.1.1系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百mB的日志数据采集和传输需求。

2.1.2网络数据采集方法:对非结构化数据的采集

网络数据采集是指通过网络爬虫或网站公开api等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用Dpi或DFi等带宽管理技术进行处理。

2.1.3其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

2.2基于数据存储的大数据处理技术

分布式数据存储处理技术的具体实现时由谷歌公司提出的GFS技术。此技术在iBm,百度等公司得到了大量的应用和快速发展。分布式存储利用的是列存储的概念。列存储是以列为单位进行存储,姓比于行存储,其具有数据压缩,快循环等优点。当今流行的技术的行列混合式存储结构,该结构能够快速加载海量数据,缩短查询时间,高效利用磁盘空间等。

2.3基于数据分析及挖掘的大数据处理技术

2.3.1基于内容的数据挖掘

基于内容的数据挖掘的主要内容为网络搜索技术和实体关联分析。当今的互联网信息搜索的热点为排序学习算法,排序学习算法的提出主要针对社会媒体的信息量,社会媒体的关注数据的特点为短文本特征,排序学习算法正是基于此特征提出,常见的排序学习算法主要有逐点,逐对和逐列。

2.3.2遗传算法和神经网络

遗传算法的提出时借鉴生物界的进化规律演化的随机化搜索办法,遗传办法的寻优办法采用概率化,其能自动调整搜索方向。遗传算法技术已经被应用在机器学习、信号处理、物流选址等多方面。神经网络的提出启发来自生物神经网络结构的运作。神经网络算法模拟动物运动神经的网络行为,是进行分布式并行信息处理的数学算法。

2.3.3分类分析和聚类分析

分类分析是指首先对数据点进行归类,然后确定新的数据点。在明确假设和客观结构的前提下,预测客户行为。而聚类分析,是指在不知道限制因素的前提下,将集合分若干对象组,然后对对象进行分析。分类分析和聚类分析主要应用于数据挖掘。

2.3.4关联规则学习和机器学习

关联规则学习是指在数据处理的过程中找到数据之间的关联规则。而机器学习是研究计算机模拟人类的学习行为,重新组织已有的知识体系。关联学习和机器学习也用于数据挖掘

2.3.5数据分析技术

数据分析技术主要包括情感分析、网络分析、空间分析、时域序列分析和回归分析。其中情感分析是对自然语言进行主观分析,网络分析是基于网络的特征分析。空间分析是集拓扑、几何和地理编码的技术统计分析。

2.3.6数据高效索引

谷歌公司提出的BiGtaBLe技术是目前主流的索引技术。目前的研究热点是聚簇索引和互补式聚簇索引。同时结合查询结果估算办法,进行最优数据查询的计划。

2.4基于数据展现和应用的大数据处理技术

为了方便人们对大数据分析结果的理解和沟通,需要可视化技术进行创建图片、图表和动画等等。Clustergram是可视化技术,该技术基础是聚类分析。该技术用于显示数据集的个别成员如何分配到集群。

3结论

随着数据量的不断增加,以及社会各界对大数据重视程度的不断提升,对大数据处理的技术也会不断发展与更新。这些技术将朝着更加便利化、合理化、人性化方向发展。通过这些技术的处理分析,大数据所承载的信息会更加适合企业和个人解读,进而为大数据时代的企业带来不可估量的信息价值。

参考文献

[1]赵卓峰,房俊.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490.

[2]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(zl):12-18.

[3]覃雄派,王会举,杜小勇.大数据分析―RDBmS与mapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[4]耿秋,孟剑.大数据时代机遇和挑战[J].中国新时代,2012:172.

作者单位

化学数据分析方法篇5

讨论。

关键词:数学方法;房地产市场;市场调查;市场预测

中图分类号:F293文献标识码:a文章编号:1009-2374(2013)30-0155-02

随着社会经济的不断发展,我国的房地产市场也在不断地实现突破增长,但是在房地产市场的发展中仍然存在一些风险以及问题,因此房地产市场一般都是利用调查与预测的方式来实现市场的规划发展,这就在我国的市场经济发展的指导下有效地实现房地产市场的再发展,同时能够有效地体现我国的市场经济利益。

1房地产市场调查与预测解析

目前我国的房地产市场已经实现了从买方市场转化为卖方市场的突破,这就在一定程度上造成了房地产市场竞争不仅是在价格上的竞争,而且是在非价格上的竞争,这也是我国的房地产市场竞争在经济发展下不断强化的主要原因。市场的营销信息对于房地产企业来说是发展的关键,因此市场的调查以及预测就成为我国房地产企业营销过程中,实现房地产市场发展的主要依据,笔者根据以往的经验发现,目前的房地产市场在近五年之内已经发展成为了有计划有制度的市场营销化体系,在这一体系中只有利用科学有效的市场调查以及预测手段,才能帮助房地产企业根据自身的发展制定具有可操作性的的营销模式,同时能够帮助房地产市场在我国的经济发展中占有重要的位置。

(1)房地产市场调查介绍。在房地产市场调查的过程中主要包括以下三个环节:首先是在调查的前期进行准备,前期你的准备阶段主要是分析经济对房地产市场的影响以及发展的机遇,这个时候就需要确定房地产市场的具体调查目标、制定详细的调查计划、根据自身的发展以及文艺设计调查方案,当然要在调查的过程中对于调查的方式、人员等进行计划,一般采取的是抽样式的问卷调查,对调查的数据资料进行详细的整合,为后期的正式调查做好准备工作。其次是正式调查阶段,这一个阶段的任务主要是收集资料,同时要对调查人员进行专业的调查培训,这个环节是房地产市场调查过程中最重要的,因此在这个环节中要保证调查的严谨。最后一个环节就是调查的总结,这一环节主要是针对前两个环节中比较分散的数据进行一下整理,并根据经验对本次的调查结果进行总结,得出比较科学的结论,同时将结论进行记录,为营销策略做出明确的建议。

(2)房地产市场预测介绍。房地产市场预测环节是建立在房地产市场调查的基础之上,我们在进行预测的时候可以利用已经调查得出的资料预测的信息,当然这一过程中需要利用一定方法以及手段,通过对房地产市场中存在的各方面因素整合分析,对一个阶段的房地产市场的发展进行一定的判断。在一般的房地产市场预测环节主要有以下内容:臆断预测的目标方向性、收集整合调查资料、选择预测方法并且建立设施的数学模型、审核预测的结果、总结预测结果。

2数学方法在房地产市场调查与预测中的应用

(1)数学统计方法分析。数学统计分析是一种描述性的定量性分析方法,这一种方法主要依靠描述以及评价研究对象的数量特点以及基本的变化规律。在这一种数学分析方法中比较常用的方法是有集中数据的变化趋势分析、分散的程度分析以及数据综合指数的分析。其中的集中数据趋势变化的分析是将全体数据中的整合变量的方向性规划为某一个数据指标上,这一点就成为这一组数据中的核心点,同时可以用它来代表整体的数据发展趋势。这种集中数据整合的方法有很多种,例如可以算术数据的平均数、中位数以及众数。分散的程度分析是借助整个数据数列之间变量的变化分散程度,数据的标志性变化的情况是指标的变化越小,平均数的代表程度反而越大,统计方法中的常用统计方法有:数据平均差、数据标准差以及离散系数。

(2)数学解析性分析。关于房地产的调查与预测方面的解析性统计分析方法主要是借助数学理论基础来进行的,通过对调查预测数据的规律进行深入的解析来定量数据的分析,常用的数学方法有:数据的方差分析、预测的聚类分析以及整合的因子分析等。在数据的方差分析中首先通过分析不同的调查数据来进行整合。在了解了整个调查的数列中自变量对因果变量的影响意义来预测整个调查结果的内容。同时数据方差分析应用的过程中针对一般假定的数据分布,可以选择相对比较稳定的方差来实现数据的预测。在预测的聚类分析中主要依靠特定的并且有规则的数列数据进行多元统计,整个的多元统计可以根据数量的变化选择多样性,在房地产市场的调查与预测中我们一般选择类聚的形式来进行聚类分析。聚类分析系统主要有:聚类法、动态聚类法、模糊聚类法等。当然随着计算机技术的不断发展,数学模型的方式成为了整合因子分析方法的主要依据,例如利用计算机中的SpSS软件对调查的原始数据进行统计。

(3)数学定量预测方法,在这一种方法中主要依据一元线性的模型建立来实现在数据资料的整合,一方面利用运用数学方法,另一方面结合计算机技术,对房地产的营销变化做出科学的估计和判断。数学统计模型是一个相对比较稳定的调查与预测应用,同时比较准确、客观真实,特别是在中短期的调查与预测中有比较客观的优势。

3结语

数学方法在房地产市场的调查与预测中已经有了很长一段的应用历史,当然在经济不断发展的背景下,房地产市场的发展也会不断地提高,因此在整个过程中,我们可以通过调查与预测的更新来实现房地产营销的发展,因此对于数学方法的应用需要不断的去研究探索。

参考文献

[1]徐小慧.应用数学方法进行房地产市场调查与预测

[J].企业导报,2010,(4):56-57.

[2]曹玮.高职高专课程改革的探索—以《房地产市场

调查与预测》为例[J].山东省农业管理干部学院学

报,2012,(4):34-36.

[3]李海霞.中职《房地产市场调查》校本教材编写思路

化学数据分析方法篇6

关键词:小学数据分析;数学经验再生

数据分析是学生的核心素养之一。数据分析是指针对研究对象获取数据,运用数学方法对数据进行整理、分析和推断,形成关于研究对象知识的素养。[1]数学活动经验,既包含经历数学活动所获得的策略性、方法性内容,也包括体验性、模式性感受。数学经验都是在直接感性基础之上,经过学习者个体自我反思、加工而形成,带有明显再抽象、再加工痕迹,都是基于个体对数学活动过程的重新认识[2]。数学经验的重新认识过程,就是数学经验再生过程。数据分析中的数学经验再生,就是学习者以数据为操作感知对象,经历动手收集、整理归类、推理趋势、综合应用等数据再加工活动,在思维方式与数据分析之间建立深度联系。纯粹地数据收集,简单地数据计算,不能再生数学经验。只有深化学生数据分析能力发展,促进数据思维的提升,经历数学经验再生过程,升华数学经验再生品质,才能有效发展数据分析核心素养。

一、数据收集中的数学经验再生

学会数据收集以及体会数据中蕴含的丰富信息是数据分析的重要基础。教师要引导学生采用图形、图表等视觉化方式全面、真实、规范地呈现数据,在学生已有生活经验基础上,逐步完善对数据信息的数学认知,从而促进数学经验再生。数据收集是一个持续过程,仅依靠课堂教学时间很难完成,需课后拓展数据收集的时间和空间,形成自主数据收集意识,养成科学数据收集习惯。数据不仅可以采用实验、调查、体验、测量等方式直接收集,也可以从报刊、书籍、杂志、网络等媒体间接获取。教师要创设学生感兴趣的生活情境,紧密联系学生学习实际,帮助学生经历数据收集过程,感受数据收集的真切价值。同时,注重生活化经验与数学化经验对接,促使感性经验与理性经验相互衔接,再生数据收集经验,为数据分析核心素养的发展奠定基础。教学苏教版《数学》五年级下册“蒜叶的生长”时,指导学生选择合适蒜瓣,采用水培和土培两种方式,分为阳光下和房间里两个环境。有学生指出:前4天,我量了蒜叶高度,分别是1、3、6、10毫米,推算第5天是15毫米,第六天是21毫米。实际测量第五天是13毫米,第6天是16毫米,蒜叶生长数据不是等差数列;有学生指出:我根据数据发现水培蒜苗长得慢,土培蒜苗长得快;有学生指出:不是的,应该水培蒜苗生长快,土培蒜苗生长慢……教师适时追问:同样水培和土培栽种方式,为什么数据信息结果却截然不同呢?有学生指出:栽种蒜苗,除了水培和土培方式外,光照条件好,蒜苗生长速度就快,光照条件差,蒜苗生长速度就慢;有学生指出:我查找了相关资料,阳光、水份、温度、土壤、营养、饱满程度、带皮等因素都可以影响蒜苗生长速度;有学生指出:光靠收集数据无法解释,必须考虑影响数据变化的因素……在蒜叶生长的实验数据收集中,学生不仅经历了蒜叶观察、数据记录和天气描述等过程,而且再生了收集数据需要综合多方因素统筹辨别的数学经验。教师针对同样栽种方式、不同数据信息的适时提问,激发学生的合理观察与交流,引起数学思考,促进直接收集与间接获取经验的有效融合,实现综合多方因素进行数据收集的经验再生,为数据分析素养的发展做出了充分准备。

二、数据整理中的数学经验再生

数据整理是指对数据进行组织、排序、分类,用文字、图画、表格、图形等方式呈现整理结果[3]。苏教版小学数学教材,有序安排了单式统计表、复式统计表、单式统计图、复式统计图等形式多样的数据整理图表。针对前期收集的数据,能用多种不同统计图表比较整理,并能根据问题实际情境灵活选择合适图表,是课程标准对小学生数据整理的要求。同一组数据,由于整理方法不同,选用图表不同,由此产生的数据信息也就不同。学生从诸多图表中不断尝试、选择、调整和比较,体验数据合理整理和科学表达过程,实质是数据整理反思过程。在这一过程中学生针对数据变化特点,经过不断调试反思,科学选取统计图表,再生数据整理经验,从而实现数据分析素养生成并发展过程。整理班级学生校服尺寸相关数据的过程中,学生采用不同统计图表:数字记录统计表、画“正”字统计表、条形统计图、折线统计图、扇形统计图……有学生指出:这些方式都反应出数量多少,可以任选一种;有学生指出:数据统计表中可以知道数量多少,但是不利于每个型号校服数量之间比较;有学生指出:画“正”字的方法在数据量大的情况下统计起来比较麻烦;有学生指出:可以用条形、折线、扇形任一种统计图来整理相关数据;老师问:三种统计图都可以反映数据整理结果,作为制衣厂负责人,会选择哪种统计图呢?有学生指出:选择条形统计图,清楚表示每个型号校服人数的多少;有学生指出:折线统计图反映每种型号校服人数变化情况;有学生指出:扇形统计图表示各部分数量和总数量之间关系,既表明每种型号校服人数,又反映总人数情况……在整理班级学生校服尺寸数据中,学生在尝试选择和主动调整中再生数学经验。尝试选择,学生再生运用不同数学图表进行分类整理的数学经验;主动调整,学生再生不同数学图表表达不同数据信息的数学经验。学生能够根据生活情境实际要求,灵活多样地选择数据整理方法,在尝试选择和调整比较中,感受数据特征,体验形式变化,再生数据整理经验,逐步发展了数据分析素养。

三、数据分析中的数学经验再生

数据分析是指选择统计模型、计算统计量,解释统计结果及意义,根据数据进行判断和预测,提出对策、方案、建议[4]。数据分析既对数据大小亲历感性体验,又对数据关系深入理性思考。教师在有意识引导学生对数据进行描述、刻画和解释的基础上,进一步加工、排列和重组,体会数据分析可以从不同角度与层次进行多维分析,把握随机数据与发展趋势的关系。数据分析着力数据随机现象,把每个随机数据置于数据总体发展趋势体系中,再生数据总体趋势经验。通过有意识为学生提供同类事物的不同信息,并要求比较与选择,从而提高学生数据分析的甄别能力,意识到综合分析的必要性,进而在发展数据分析操作能力的同时,提升处理数据的思维能力[5]。学生数据分析能力不断提高的过程,也是数学经验循环再生的过程,同时,也是学生数据分析核心素养逐步提升的过程。教学摸球游戏时,袋子里装入4个球(3个蓝色球,1个红色球,学生不知情)。师:袋子里有4个球,开展摸球游戏,摸了3次,每次30下。从统计图中,你能判断出红色球和蓝色球分别有几个吗?有学生指出:摸出蓝色球数分别占总数的:用总数4分别去乘以这几个分数,计算结果为:3.07、2.8、3.2,蓝色球个数在2.8至3.2之间,取整数为3个;有学生用同样的方法得出红色球数为1个。师:还有别的方法吗?有学生指出:3次次数加起来为90下,蓝色球数占总数的9068,红色球占总数的9022,用总数4分别去乘以这两个分数,结果分别为3.02个和0.98个,与刚刚结果是一致的;有学生指出:虽然结论一致,但3.02和0.98比之前所得数据更精准,更接近整数;有学生指出:数据越多,用大数据分析就越接近正确结果……摸球游戏中,学生将随机性数据通过数学计算与统计模型巧妙相连,强化对不同颜色球的数据关系分析,确定不同颜色球的取值范围,形成了理性数据分析过程。在此基础上,学生进一步运用大数据统计方式,更加精准地计算出蓝色球和红色球的取值范围,并且根据统计结论合理预测和推断数据整体趋势。学生将随机数据置于整体数据之中,综合选择随机数据信息,再生利用统计数据归纳类比事物发展趋势的数学经验。师生重视数据随机性的体验,强化数学经验再生过程,增加了数据分析的思维深度,使学生数据分析素养在不断体验与理性思考中得到有力提升。

化学数据分析方法篇7

关键词:数据挖掘;神经元;方法;应用;发展

中图分类号:tp311.13文献标识码:a文章编号:1007-9599(2012)12-0000-02

一、引言

伴随信息技术的迅猛发展,数据库规模与应用的不断扩大,大量数据随之产生。新增的数据包含了重要的信息,人们希望更好地利用这些数据,并通过进行更高层次的数据分析,为决策者提供更宽广的视野。

现今,很多领域已建立了相应的数据仓库。但人们无法辨别隐藏在海量数据中有价信息,传统的查询方式无法满足信息挖掘的需求。因此,伴随着数据仓库技术不断发展并逐渐完善的一种从海量信息中提取有价潜在信息的崭新数据分析技术------数据挖掘(Datamining)技术应运而生。

二、数据挖掘概念

数据挖掘技术从1990年左右开始,发展速度很快,数据挖掘技术的产生和不断发展可使得人们对当今世界的海量数据中隐藏着人们所需要的商业和科学信息等重要信息进行挖掘。数据挖掘运用到交叉学科,涉及到,包括Database、ai、machineLearning、人工神经网络(artificialneuralnetworks)、统计学(statistics)、模式识别(patternRecognition)、信息检索(informationRetrieval)和数据库可视化等,因此数据库目前还没有明确的定义。通常普遍认可的数据挖掘定义是:从数据库中抽取隐含的、以前未知的、有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。

三、数据挖掘方法

由于数据挖掘技术研究融合了不同学科技术,在研究方法上表现为多样性。从统计学角度上划分,数据挖掘技术模型有:线形/非线形分析、回归/逻辑回归分析、单/多变量分析、时间序列/最近序列分析和聚类分析等方法。通过运用这些技术可以检索出异常形式数据,最后,利用多种统计和数学模型对上述数据进行解释,发掘出隐藏在海量数据后的规律和知识。

(一)数据挖掘统计

统计学为数据挖掘技术提供了判别方法与分析方法,经常会用到的有贝叶斯推理(Bayesianreasoning;Bayesianinference)、回归分析(Regressionanalysis)、方差分析(analysisofVariance,简称anoVa)等分析技术、贝叶斯推理是在估计与假设统计归纳基础上发展的全新推理方法。贝叶斯推理在与传统统计归纳推理方法相比较,所得出的结论不仅根据当前观察得到的样本信息,还将根据推理者过去相关的经验和知识来处理数据挖掘中遇到的分类问题;回归分析是通过输入变量和输出变量来确定变量之间的因果关系,通过建立回归模型,根据实测数据求解模型的各参数,若能很好的拟合,则可根据自变量进一步预测。统计方法中的方差分析是通过分析研究中估计回归直线的性能和自变量对最终回归的贡献大小,从而确定可控因素对研究结果影响力的大小。

(二)聚类分析(Clusteranalysis)

聚类分析(Clusteranalysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术。同组内的样本具有较高相似度,常用技术有分裂/凝聚算法,划分/增量聚类。聚类方法适用于研究群组内的关系,并对群组结构做出相应评价。同时,聚类分析为了更容易地使某个对象从其他对象中分离出来的方法用于检测孤立点。聚类分析已被应用于经济分析(economicanalysis)、模式识别(patternRecognition)、图像处理(imageprocessing)等多种领域。

(三)机器学习(machineLearning)

机器学习方法经过多年的研究已相对完善,通过建立人类的认识模型、模仿人类的学习方法从海量数据中提取信息与知识,在很多领域已取得了一些较满意的成果。因此利用目前比较成熟的机器学习方法可以提供数据挖掘效率。

(四)数据汇总

数据库中的数据和对象经常包含原始概念层上的详细信息,将数据集通过数据立方体和面向对象的归纳方法由低概念层抽象到高概念层,并对数据归纳为更高概念层次信息的数据挖掘技术。

(五)人工神经网络(artificialneuralnetworks)

神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。近年来在解决数据挖掘中遇到的问题越来越受到人们的关注,源于人工神经网络具有良好的自组织自适应性、并行处理、分布式存储和高容错等特性,并通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。

(六)遗传算法(Geneticalgorithm)

遗传算法(Geneticalgorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。遗传算法可直接对结构对象进行操作,不存在求导和函数连续性的限定,能自动获取和指导优化的搜索空间,自适应地调整搜索方向。遗传算法已被人们广泛地应用于多种学科领域。

(七)粗糙集

粗糙集是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

四、数据挖掘技术发展趋势

当前,数据挖掘技术不断创新与发展,数据挖掘技术开发研究人员、系统应用人员所面对的主要问题:高效、有效的数据挖掘方法和相应系统的开发;交互和集成的数据挖掘环境的建立以及在实际应用中解决大型问题。

五、小结

数据挖掘技术涉及到多种学科技术,如:数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索及空间数据分析等。因此,数据挖掘是非常有前景的研究领域,随着数据挖掘技术的不断发展,它将会广泛而深入地应用到人类社会的各个领域。

参考文献:

[1]罗可,蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002

[2]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000

[3]刘毅勇.情报分析智能辅助决策方法及其军事应用[m].北京:国防大学出版社,2001

[4]唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002

[5]alexBerson,StephenJ.Smith,Datawarehousing,Datamining,&oLap[m],mcCraw-HillBookCo,1997

[6]吴修霆.SaS数据挖掘技术的实现[J].微电脑世界,2000,Vol.14:pp44-45

[7]inDeRpaLBHanDaRi,eDwaRDCoLet,JenniFeRpaRKeR,ZaCHaRYpineS,RaJiVpRatap,KRiSHnaKmaRRamanUJam.advancedScout:DataminingandKnowledgeDiscoveryinnBaData.DataminingandKnowledgeDiscovery,1997,1:121~125

化学数据分析方法篇8

关键词:大数据大数据分析大数据方法大数据技术

中图分类号:tp31文献标识码:a文章编号:1674-098X(2014)07(b)-0052-02

现象1:重庆市科学技术研究院成功研发的“智能公交站牌”,不仅能显示本站的公交车车次、途经地点以及首末班车时间,还能准确定位下一班车的位置信息,如距离本站的距离、站数和到达本站的时间,甚至能实时监测下一班车的拥挤程度,方便市民出行的同时为公交线路的合理规划奠定基础。随着智能公交站牌的深入人心,一款结合移动设备便携、强交互特性的生活助手类app“车来了”应运而生。该应用可以实时查询下一班车的位置信息和拥挤程度,旨在打破在公交站台等车的局限性,彻底解决在各种恶劣天气下等待时间长、候车苦的难题,实现真正意义上的出行无忧。

现象2:针对传统教学中学生出现问题但找不到问题所在、被动学习效果越来越差、享受不到优质教学资源、羞于提问而问题越攒越多等现象,中小学优质教育资源共享平台“梯子网”按照教材版本、章节、知识点、难易程度、考试比重等多重属性对拥有的1000多万道题目进行精确定位,通过专业的在线评测结果,提供针对性的专项优化练习并给出可视化的成绩分析。该系统不仅能让学生了解自身学习的真实状况、得到优秀教师的在线答疑,还让那些贫困地区的学生享受到最优质的资源,解决了因地域限制优秀师资难以均衡流动的难题,开创了简单轻松地提高学习成绩的方法。

现象3:主打公务员考试、司法考试等成人职业资格考试的智能在线教育产品“猿题库”,提供各科目历年真题及精编模拟题,每题答案和解析均由2位业界名师编审,经过5轮严格审校;根据用户目标考试的考点、考频、难度分布和用户对各个考点的掌握情况,智能调整出题范围和难度,实现一对一智能出题;根据用户的答题情况实时生成个人能力评估报告并给出专业化做题建议,还能精确预测用户参加目标考试可能获得的分数;支持电脑、智能手机和平板电脑三种方式的在线练习,同时支持下载或打印试卷和答题卡,手机扫描答题卡就能自动实现评分、查看答案和解析。

现象4:“百度迁徙”利用百度地图LBS开放平台的定位功能,从时间和空间两个纬度全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征,通过选择日期、时刻、城市可查看“迁入城市、迁出城市”和“最热线路”等三个数据指标排名。该应用对用户位置变化时间、轨迹、省份等进行挖掘,以可视化图表的形式展示不同城市之间、不同时间段的迁移轨迹,旨在通过对大数据的创新应用服务于政府部门科学决策,赋予科学研究新的观察视角和方法工具,同时为公众创造近距离接触大数据的机会、科普数据价值。

现象5:“浪漫指数”,是百度搜索对大数据挖掘的一种新技术形态,展现了各个省份区域网民的实时搜索行为,并通过彩色搜索气泡在地图上的不断闪动显现网民不断变化的关注点。随着区域搜索浪漫词气泡的数量增多,地图颜色也会由浅至深。浪漫指数不仅展示全国各地不同特点的情人节,也可以看到网民们共同演绎的“中国式浪漫”。通过对大数据的分享,可以让更多人洞察到数据之美,意识到数据的价值,并对个人生活和企业决策提供重要的驱动作用。

现象6:“快的打车”,是一款立足于LBS的o2o打车应用,将传统出租车与乘客间的被动等待转化为主动联系。用户通过手机号和用户名进行注册,打开地图就能看到自己周边的出租车,输入目的地就能叫车,利用支付宝钱包直接支付车费。该软件为打车乘客和出租司机量身定做,乘客可以轻松发单,随时随地打车或约车;司机可以选择接单,降低空驶率。

大数据是一场生活、工作、思维的大变革,就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式。大数据的科学应用将服务每一个人,让每个人受益无穷。

1大数据定义

大数据时代的来临,是互联网发展到一定阶段的必然产物。随着互联网的高速发展,互联网中的信息量急剧增加,这些信息有用的部分被称为数据。当数据规模越来越大时,量变就会引起质变,大数据应运而生。大数据的火热并不意味着对于大数据的了解深入,大数据不等于大的数据而是一种全新的概念。如何定义大数据,这是一个仁者见仁、智者见智的问题。

百度给出的定义:大数据,或称巨量资料,指所涉及的资料规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据概念给出的定义:大数据是一个体量特别大、类别特别大的数据集,并且无法用传统数据库工具对其内容进行抓取、管理和处理。首先,数据体量(Volumes)大,在实际应用中已形成了pB级的数据量;其次,数据类别(Variety)大,囊括了半结构化和非结构化数据。接着,数据处理速度(Velocity)快,在数据量非常庞大的情况下能够做到数据的实时处理。最后,数据真实性(Veracity)高,企业愈发需要有效的信息以确保其真实性及安全性。

研究机构给出的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

2大数据分析的现状和面临的困境

大数据具有海量、多源、复杂的信息属性和高端、前沿的技术特征,是继云计算、物联网之后又一次颠覆性的技术革命。大数据使人的思维方式、行为模式、管理理念发生全方位变革,在各个领域蕴含巨大的应用潜力和创新空间。为了尽快加入大数据实践的行列,从海量数据中获取价值,把大数据转为企业敏锐的洞察力,驱动业务的长足发展,许多企业和管理者盲目收集数据并进行分析,期待能够得到快速的回报。但很遗憾,大多数企业距离从数据中提取利润都差着十万八千里。

2.1现状

数据量:由tB级升至pB级,并仍在持续爆炸式增长。根据winterCorp的调查显示,最大的数据仓库中的数据量,其增长速度远超摩尔定律增长速度。照此计算,2015年最大数据仓库中的数据量将逼近100pB。数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇。

分析深度:由常规分析转向深度分析,数据分析日益成为企业利润必不可少的支撑点。企业已经不满足于对现有数据的分析和监测,而是更期望能对未来趋势有更多的分析和预测,从而增强企业的竞争力。

硬件环境:由高端服务器转向由中低端硬件构成的大规模机群平台。由于数据量的迅速增加,并行数据库的规模不得不随之增大,从而导致其成本的急剧上升。出于成本的考虑,越来越多的企业将选择由中低端硬件构成的大规模机群平台。

2.2困境

数据共享不足:高度数据开放是数据应用的前提。目前一些机构拥有大量数据但不愿提供给有关部门共享,导致信息不完整或重复投资。另外,政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,数据之间缺乏统一的标准,形成了众多“信息孤岛”。无疑,这给数据应用造成极大障碍。

技术人才匮乏:高端技术人才是数据应用的关键。麦肯锡公司预测美国到2018年需要深度数据分析人才44~49万,缺口14~19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。

3大数据分析的意义

近年来,包括互联网、物联网、云计算等信息技术在内的it通信业迅速发展,现代信息社会已经进入了大数据时代。大数据改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。

大数据中蕴含着大价值,大数据价值的合理共享和利用将创造巨大的财富。大数据智能分析能够给智慧城市的管理和服务系统提供新的洞察力,是提升智慧城市“智商”的关键。以大数据技术为支撑的综合智能化分析和决策系统,使智慧城市的管理系统和服务系统充分、有效、合理地发挥各自的作用,解决目前困扰各地的“信息孤岛”现象,做到信息资源的共享、智能决策的集成,实现智慧城市让城市生活更美好、更幸福的目标。

4大数据分析方法

大数据不单单是数据大,而且呈现了不断增长的复杂性。当前最重要的是对大数据进行分析,只有通过分析才能获取智能的、深入的、有价值的信息,大数据分析方法是决定最终信息是否有价值的决定性因素。

可视化分析:在信息化建设过程中,数据可分为三种类型:结构化数据,非结构化数据和半结构化数据。由于所涉及到的数据比较分散、数据结构可能不统一,而且通常以人工分析为主,加上分析过程的非结构性和不确定性,所以不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。借助功能强大的可视化数据分析平台,可辅助人工操作将数据进行关联分析,并做出完整的分析图表。

数据可视化的优点:第一,交互性强。用户不仅能看数据,还能方便地管理和开发数据。第二,多维性好。通过每一维的值分类、排序、组合来显示数据的多个属性或变量。第三,直观度高。数据可以用图像、曲线、二维图形、三维体和动画来显示。

数据挖掘算法:数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声的具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。数据挖掘在有效处理海量且无序的数据时,还能够发现隐藏在这些数据中的有用的知识,最终为决策服务。数据挖掘就是利用一系列相关算法和技术从大量的数据中提取出为人们所需要的信息和知识,隐藏在数据背后的知识,可以以概念、模式、规律和规则等形式呈现出来。

预测性分析能力:根据可视化分析和数据挖掘的结果,预测性分析可做出一些预测性的判断。可视化分析和数据挖掘都是前期铺垫工作,只要在大数据中挖掘出信息的特点与联系,就可以建立科学的数据模型,通过模型带入新的数据,从而预测未来的数据,大数据分析最终要实现的应用领域之一就是预测性分析。大数据的预测分析能力,能够帮助企业分析未来的数据信息,有效规避风险。在通过大数据的预测性分析之后,无论是个人还是企业,都可以比之前更好地理解和管理大数据。

语义引擎:非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

数据质量和数据管理:大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

5大数据技术

大数据环境下,数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。然而,传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理;传统的并行数据库技术追求高度一致性和容错性,难以保证其可用性和扩展性;传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。

在数据采集方面使用的新方法有以下几种。

系统日志采集方法:用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百mB的日志数据采集和传输需求。

网络数据采集方法:用于非结构化数据的采集,将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

其他数据采集方法:对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

6大数据工作的开展

第一个是完善信息采集平台。充分利用物联网等技术,使越来越多的基础设施具备信息自动采集和迅捷采集的能力,便于信息的获取更加便捷和高效。扩展采集的设备类型和支持的协议类型,使数据采集的范围和通道越来越广。在此基础上,打破各行业的信息资源壁垒,实现信息资源的高度整合和共享。

第二个是加强大数据分析和挖掘。大数据如何为我所用,如何体现价值,缺少大数据分析光有一堆大数据的堆积和存储是没有任何意义的。我们应结合重点行业,如水利、交通、城管、公共安全,推动这些行业的大数据分析和预测挖掘系统,并以典型行业和典型项目为基础逐步扩展。

第三个是推动大数据可视化。现代城市产生的数据量非常大,对数据价值的挖掘不能只依靠数字和报表,大数据可视化有助于帮助用户更形象地分析、挖掘数据的价值。通过数据可视化方式,包括GiS和专业图形的可视化方式,用非常直观的方式帮助业主去获取数据价值,从而分析、挖掘数据中间的关系和趋势。数据可视化方式是我们未来发展的重点。

参考文献

[1]维克托・迈尔-舍恩伯格.大数据时代:生活、工作与思维的大变革[m].盛杨燕,周涛,译.浙江:浙江人民出版社,2013.

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[3]李芬,朱志祥,刘盛辉.大数据发展现状及面临的问题[J].西安邮电大学学报,2013,18(5):100-103.

[4]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1134.

化学数据分析方法篇9

〔关键词〕科学数据;开放数据政策;数据共享;研究动向

Doi:10.3969/j.issn.1008-0821.2016.02.031

〔中图分类号〕G201〔文献标识码〕a〔文章编号〕1008-0821(2016)02-0167-04

〔abstract〕thispapersystematicallystudiedrelevantresearchoutputsandcomparedrespectiveresearchstatusonopenresearchdatapolicyhomeandabroad.inordertoprovidereferencesforpromotingrelevantresearch,thispaperdiscussedthecharacteristicsofrelevantresearchhomeandabroad,pointedouttheshortagesofcurrentresearchinChina,andfinallyevaluatedthefutureresearchtrendsonopenresearchdatapolicyinChina.

〔Keywords〕researchdata;opendatapolicy;researchstatus;researchtrend

科学数据(ScientificData),也称科研数据(ResearchData),与科学论文一样也被视为重要的科研产出,也是一种具有潜在经济价值的战略资源。开放科学数据对数据驱动科学研究起到了关键作用,越来越多的研究是建立在对已有科学数据重用的基础之上的。因此,完整保存并开放获取先前研究的科学数据,对于顺利开展后续研究、推动科学进步具有重要意义。开放科学数据在国家科技创新中的战略地位不断提升,目前在开放规模和开放程度上均达到了前所未有的水平。通过开放科学数据改善社会生活受到众多投资者、出版商、科学家和其他利益相关者的高度关注,欧洲、美国以及众多国际组织与研究机构都积极建立开放科学数据的政策保障与管理机制。如美国已经形成了以“完全与开放”为基本国策的科学数据开放共享法规体系;经济合作与发展组织(oeCD)颁布了《公共资金资助的科学数据获取原则与指南》,以指导成员国制定与完善科学数据开放共享政策;欧盟“地平线2020计划”将科学数据新增为开放存取的对象并要求逐步达到开放性可获取,并启动了旨在促进科学数据获取和再利用的“科学数据开放先导性计划”[1]。

我国早在2002年就已正式启动科学数据共享工程,并先后在六大领域共计24个部门开展了科学数据共享工作。2006年以来,中国科学院国家科学图书馆提出并开展了科学数据与科技文献跨界集成服务、数据融合技术的研究和开发。目前,我国在科学数据开放政策的制定和完善方面,与美国、英国、澳大利亚、日本、韩国、台湾等国家和地区相比仍显滞后。本文针对国内外科学数据开放政策的研究现状进行了比较分析,在此基础上探讨了国内外相关研究的特点以及我国现有研究的不足,并对我国科学数据开放政策的未来研究动向进行了评判。

1国内研究现状分析

对从CnKi和万方数据两大中文数据库检索到的相关文献进行阅读和梳理发现,我国针对科学数据开放政策的相关研究可以概括为以下5个方面:

1.1建立开放科学数据政策保障机制的理论性研究

目前已有较多成果是针对建立和完善科学数据开放共享政策法规的顶层设计展开论证,如刘细文(2009)指出,美国、英国以及众多国际组织与研究机构都就科学数据开放获取问题,积极建立政策保障与管理机制并广泛推行相关服务与实践,其政策举措主要围绕科学数据交流渠道各环节,集中体现在数据开放资助、数据质量控制、数据合法保护、数据保存以及数据共享利用五大方面[2]。王晴(2014)指出:国内外20余个组织相继制定或实施了30余条旨在促进科学数据开放共享的政策法规,根据制定主体和效力范围可以分为宏观、中观和微观3个层面,共同形成了一个较为完备并在不断完善的制度体系[3]。

1.2针对国内外各类科学数据开放共享政策的调查研究目前已有部分成果针对多种政策主体(如高等院校、科研资助机构、信息服务机构等)的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开了调查分析,如司莉等(2013)考察了美国、英国、澳大利亚3个国家的科研管理机构、高校制定的数据管理政策以及政府制定的数据公开政策,并指出:发达国家的政府部门都制定了科学数据开放共享政策,对科学数据的保存与管理等均作了明确具体的规定。我国政府也应制定完善的科学数据开放共享政策,从政策层面对科学数据的开放共享进行指导和规范[4]。司莉等(2014)针对英美10所高校的科学数据开放共享政策,从一般政策、数据标准、数据访问与保存、数据共享、数据安全与保护以及数据产权6个方面进行了调查与比较,揭示了英美两国大学科学数据开放共享政策的特点与差异,指出通过借鉴国外大学科学数据开放共享政策的良好实践,推动我国大学相关政策法规的制定和[5]。唐源等(2015)针对国外典型医学相关机构的科学数据开放共享政策从科学数据开放资助、科学数据汇交、科学数据保存、数据共享利用4个方面的政策内容进行文献调研和网站调研,指出国外政策制定者从政府到机构自身以及期刊等具有多重身份,政策内容集中于数据汇交和共享计划。

1.3科学数据开放政策利益主体的开放共享行为研究由于开放科学数据的利益主体一般要受到相关政策法规的制约,因此也可视为科学数据开放政策的利益主体。国内的相关研究成果主要包括:①单一利益主体的开放共享行为的共享意愿及影响因素分析,如张晋朝(2013)通过问卷调查方法和结构方程模型,分析了我国高校科研人员科学数据共享意愿的影响因素,指出科学数据开放共享工作的顺利开展不仅要关注技术维度,还要关注社会环境因素、内在激励、人际信任等人文维度[7]。②针对单一利益主体的开放共享行为的演化博弈分析,如庄倩等(2015)建立了参与科学数据开放共享的科研人员之间的演化博弈模型,揭示了科学数据开放共享博弈中存在的"公共品困境"及其原因,指出为促进我国科学数据开放共享健康有序发展,不能仅从国家层面制定和完善相关的战略规划,还要从政策法规层面建立相应的激励机制[8]。

1.4制定开放科学数据相关知识产权政策法律问题的研究虽然目前科学数据具有著作权已经成为共识,但其使用存在著作权界定不清及其利益分配不当等问题,尤其是科学数据二次研发过程中的著作权分配问题。司莉等(2015)从科学数据开放共享中的授权方式、数据出版及引用、技术措施、制度与法规、科学数据二次利用5个方面分别探讨了科学数据著作权保护存在的问题及对策,指出我国应结合知识产权保护法、著作权法、专利法和中华人民共和国政府信息公开条例等已有法规条例,尽快建立完善的科学数据著作权保护体系[9]。

1.5基于政策文本分析的科学数据开放政策实证研究目前国内的相关研究成果非常有限,主要是通过内容分析法进行政策文本分析,如裴雷(2013)通过内容分析法构建了基于政策文本的上下位政策概念一致性的测算框架,并对我国12个领域的科学数据开放共享政策文本进行内容编码和实证分析,探讨了当前我国科学数据开放共享政策在吸收、扩散和创新过程中的政策文本质量[10]。

2国外研究现状分析

对从Springer、emerald和elsevier三大外文数据库检索到的相关文献进行阅读和梳理,可以发现国外科学数据开放政策研究所涉及的研究主题更为广泛,可以大致概括为以下5个方面:

2.1制定科学数据开放政策的理论探讨与实践研究

国外学者针对这一研究主题的研究成果也比较丰富,如ChildsS等(2014)探讨了作为实现开放科学数据的机制――科研数据管理(RDm)的作用以及它带给记录管理者的机遇,并指出开放科学数据议程的前提是尽可能公开可用的数据,在开放科学数据的背景下仍然存在方法、伦理、政策和实践等层面的问题[11]。HigmanR等(2015)借鉴行动者网络理论(actornetworktheory)并结合政策分析过程和案例研究方法,考察了在英国高等教育机构中建立科学数据管理(RDm)政策与实践的驱动因素,以及科学数据开放共享在科学数据管理过程中的关键作用[12]。

2.2科学数据开放政策利益主体的开放共享行为研究国外学者针对科研人员的开放共享行为的共享意愿及其影响因素展开了较为系统的实证研究,如wichertsJm等(2011)对心理学期刊中的统计结果显著与数据共享意愿的相关性进行了实证研究,发现科研人员不愿意共享数据的主要原因在于:统计结果不构成充分的证据以及更有可能存在明显的错误,并强调了建立科学数据的强制性归档政策的重要性[13]。SayogoDS等(2013)指出科学数据开放共享存在多重障碍与挑战:①技术上的障碍;②社会、组织和经济上的障碍;③法律和政策上的障碍,并通过问卷调查得出影响科研人员开放共享意愿的几个关键因素:数据管理技能、组织参与、法律与政策需求、向数据集提供者致谢[14]。

2.3面向科学数据开放政策利益主体的开放共享服务研究国外学者针对高校图书馆、研究型图书馆、信息服务机构的科学数据开放共享服务实践展开了广泛的研究,国内的相关研究主要是对国外科学数据服务实践的案例研究及调查分析,如nielsenHJ等(2014)认为科学数据管理(RDm)是图书馆员和信息专业人员的潜在职责,研究型图书馆是选择、保护、组织与利用科学数据的最佳场所,并应积极参与到其所在学科领域的特定领域的分析研究[15]。tenopirC等(2014)指出数据密集型科学的出现和数据管理规范的制定,驱动高校图书馆为其教师和学生开展数据管理服务(RDS),并通过调查研究建立了图书馆员、图书馆、信息服务机构参与数据管理服务的评价基准[16]。

2.4针对专业领域科学数据开放政策的政策分析研究国外学者针对天文、气象、地球、生物、医学等自然科学以及心理学、伦理学等社会科学专业领域的科学数据开放共享政策进行了政策分析研究,如HarrisR等(2015)考察了参与开放地球观测数据的八国集团、欧盟和国际组织的21个政策文本和法律文书――八国集团(G8)开放数据、全球综合地球观测系统(GeoSS)数据共享原则、经济合作与发展组织(oeCD)科学数据原则与指南、欧洲环境信息指令等,指出地球观测领域开放数据政策应更加明确、完整地说明开放获取的条件,以期充分实现开放地球观测数据的潜在利益[17]。

2.5基于政策文本分析的科学数据开放政策实证研究国外学者进行政策文本分析时除了运用常规的内容分析法以外,还创新性地引入了语义网分析、社会网络分析等研究方法,如JungK等(2015)对韩国《开放公共数据指令》(opDD)的政策文本进行了语义网分析,并指出:利用语义网的概念模型及分析过程有助于确定各类公共政策针对的主要问题及解决视角的一致性[18]。

3国内外研究现状的比较分析

对国内外科学数据开放政策的相关研究进行对比,可以发现具有以下几个特点:①总体来看,我国学者针对科学数据开放政策各研究主题的相关研究,目前大多处于对国外先进政策实践的案例研究与调查分析阶段。②国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主,原因在于英美两国已经建立起相对完善的科学数据开放政策法规体系,如经济合作与发展组织(oeCD)于2007年颁布了《公共资助科学数据开放获取的原则和指南》,提倡所有的获公共资金支持得到的科学数据都应能被公众获取、共享。美国、英国等一些重要基金机构也提出了科学数据开放政策指南,如美国国家科学基金会(nSF)、美国国立卫生研究院(niH)、美国国家航空航天局(naSa)、英国研究理事会(RCUK)等,要求所有获得资助的项目提交科学数据的开放共享计划。美国科技政策办公室(oStp)于2013年签署了关于“提高联邦政府资助的科学研究结果的访问”的备忘录,要求由联邦资金资助所产生的非保密的科学数据,应该存储并为公众提供免费的最大化访问[19]。③国内外对于具体专业领域的科学数据开放政策的研究相对较多,但对于国家统一综合层面的科学数据开放政策研究十分有限。

对比国内外开放数据政策研究的现状不难看出,国内相关研究主要存在以下不足:①目前的研究成果主要是针对国外高等院校、信息服务机构和科研资助机构的科学数据开放共享政策的调查研究与比较分析,但从整体来看这类研究成果的研究内容比较分散、系统性不强;②已有研究针对参与科学数据开放的单一利益主体(如研究人员)的开放共享行为进行了演化博弈分析,尚未发现针对参与科学数据开放的多个利益主体之间的演化博弈分析的相关研究;③针对科学数据开放政策的政策文本分析目前主要采用内容分析法,尚未展开借鉴多学科理论与方法的政策文本分析方法的探索性研究;④尚未展开针对科学数据开放政策群的政策协同研究,已有学者针对政府数据的开放数据政策与数据安全政策的协同关系展开研究[20],如黄道丽等(2015)分析了美国政府的开放数据政策与网络安全政策之间的冲突与协调[21],但尚未发现有针对科学数据展开的类似研究;⑤尚未从政策科学的研究视角展开系统性的科学数据开放政策评估研究。

4我国未来研究动向评判

通过以上的比较分析,笔者认为,我国图书情报及相关学科领域研究者应展开协作研究,并从以下5个方面强化和拓展这一重要的跨学科研究领域。

4.1各类科学数据开放政策的调查与比较分析

针对主要发达国家的政府部门、高等院校与科研机构以及各类国际组织的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开广泛的调查分析,比较和分析各类政策文本中有关一般政策、数据标准、数据共享、数据保存、数据安全和数据产权等方面内容的特点与差异,合理借鉴发达国家在政策的系统性、一致性、完善性方面的经验,为推进我国科学数据开放政策的制定与完善提供必要的参考借鉴。

4.2科学数据开放政策多个利益主体的博弈分析

现有的研究成果主要是针对参与科学数据开放的单一利益主体(如研究人员)的博弈分析,在后续研究中可针对参与科学数据开放的多个利益主体(研究人员、科研机构、数据中心、资助者、出版者、第三方用户等)之间的利益诉求关系展开研究,建立参与科学数据开放的多个利益主体之间的演化博弈模型,探索促进多个利益主体开放科学数据的激励机制,为从微观层面制定和完善科学数据开放政策提供演化博弈的理论框架。

4.3基于多学科方法的科学数据开放政策文本分析

值得关注的研究方向包括:①借鉴多学科理论与方法对政策文本进行内容分析,如借鉴扎根理论的“信息提取-归纳-概念化-重组”思想,对各类科学数据开放政策文本进行解构、分类和比较,提取科学数据开放政策的区分要素,确定政策文本结构化编码体系和分类标准,将政策文本转化为半结构化数据,建立类定量化的政策文本分析框架。②基于知识单元的政策文本分析方法的探索性研究,如借助于语义网分析和社会网络分析方法,探索政策文本的词汇分析单元之间的语义关联关系,并可通过软件工具进行网络结构分析及可视化展示。

4.4各类科学数据开放政策的政策协同研究

值得关注的研究方向包括:①科学数据开放政策群内部的政策协同研究。通过内容分析法对各类科学数据开放政策进行政策文本分析,从政策连续性、政策互补性、政策交叉性、政策缺失性及政策矛盾性等多个维度考察科学数据开放政策群内部的政策协同。②科学数据开放政策群与数据安全政策群的政策协同研究。借鉴协同论思想和政策协同理论及工具,设计科学数据开放政策群与《中华人民共和国保守国家秘密法》、《中华人民共和国科学技术保密规定》以及其他相关部门颁布的保密规定等数据安全政策群的政策协同机制,制定科学数据开放政策群与数据安全政策群的政策协同策略。

4.5科学数据开放政策的政策分析与评估研究

将侧重于定性分析的政策分析研究与侧重于定量分析的政策评估研究相结合,针对科学数据开放政策,从政策科学的学科视角进行多角度的政策分析与评估研究,如针对科学数据开放政策完整的生命周期中的每一环节――政策提案、政策制定、政策实施、政策反馈和政策调整,综合运用多种政策科学相关理论、方法与工具进行系统性的政策评估研究;运用层次分析法、模糊综合评判法、数据包络分析法和灰色关联度法等政策评估方法,建立科学数据开放政策评估指标体系并进行指标权重分析,采用数学模型及软件工具构建科学数据开放政策评估模型并进行模拟实验。

5结论

通过CnKi和万方数据两大中文数据库以及Springer、emerald和elsevier三大外文数据库,笔者对国内外现有的科学数据开放政策的相关研究成果进行了比较研究,并在此基础上探讨了国内外相关研究的特点:目前国内的相关研究基本处于对国外先进政策实践的案例研究与调查分析阶段,国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主。结合科学数据开放政策相关领域的学术研究与实践进展,我国在这一跨学科研究领域未来可能出现五大研究动向:①各类科学数据开放政策的调查与比较分析;②科学数据开放政策多个利益主体的博弈分析;③基于多学科方法的科学数据开放政策文本分析;④各类科学数据开放政策的政策协同研究;⑤科学数据开放政策的政策分析与评估研究。从而推动我国开放科学数据的政策保障与管理机制的建立。

参考文献

[1]韩缨.欧盟“地平线2020计划”相关知识产权规则与开放获取政策研究[J].知识产权,2015,(3):92-96.

[2]刘细文,熊瑞.国外科学数据开放获取政策特点分析[J].情报理论与实践,2009,32(9):5-9.

[3]王晴.论科学数据开放共享的运行模式、保障机制及优化策略[J].国家图书馆学刊,2014,(1):3-9.

[4]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013,(1):61-66.

[5]司莉,辛娟娟.英美高校科学数据管理与共享政策的调查分析[J].图书馆论坛,2014,(9):80-85,65.

[6]唐源,吴丹.国外医学科学数据共享政策调查及对我国的启示[J].图书情报工作,2015,59(18):6-13.

[7]张晋朝.我国高校科研人员科学数据共享意愿研究[J].情报理论与实践,2013,36(10):25-30.

[8]庄倩,何琳.科学数据共享中科研人员共享行为的演化博弈分析[J].情报杂志,2015,34(8):152-157.

[9]司莉,贾欢,邢文明.科学数据著作权保护问题与对策研究[J].图书与情报,2015,(4):118-122.

[10]裴雷.我国科学数据共享政策概念一致性与政策质量评估[J].情报理论与实践,2013,36(9):28-31.

[11]ChildsS,mcLeodJ,Lomase,etal.openingresearchdata:issuesandopportunities[J].RecordsmanagementJournal,2014,24(2):142-162.

[12]HigmanR,pinfieldS.Researchdatamanagementandopenness:theroleofdatasharingindevelopinginstitutionalpoliciesandpractices[J].program:electroniclibraryandinformationsystems,2015,49(4):364-381.

[13]wichertsJm,Bakkerm,molenaarD.willingnesstoshareresearchdataisrelatedtothestrengthoftheevidenceandthequalityofreportingofstatisticalresults[J].pLoSone,2011,6(11):1-7.

[14]SayogoDS,pardota.exploringthedeterminantsofscientificdatasharing:Understandingthemotivationtopublishresearchdata[J].GovernmentinformationQuarterly,2013,30(S1):19-31.

[15]nielsenHJ,HjrlandB.Curatingresearchdata:thepotentialrolesoflibrariesandinformationprofessionals[J].JournalofDocumentation,2014,70(2):221-240.

[16]tenopirC,SanduskyRJ,allardS,etal.Researchdatamanagementservicesinacademicresearchlibrariesandperceptionsoflibrarians[J].Library&informationScienceResearch,2014,36:84-90.

[17]HarrisR,Baumanni.opendatapoliciesandsatelliteearthobservation[J].Spacepolicy,2015,32:44-53.

[18]JungK,parkHw.asemantic(tRiZ)networkanalysisofSouthKoreas“openpublicData”policy[J].GovernmentinformationQuarterly,2015,32(3):353-358.

[19]黄永文,张建勇,黄金霞,等.国外开放科学数据研究综述[J].现代图书情报技术,2013,(5):21-27.

化学数据分析方法篇10

关键词教育大数据个性化学习学习路径

教育部2015年工作要点中提出:将进一步推进《教育信息化十年发展规划》中的“三通两平台”建设与应用,力争实现学校互联网全覆盖[1]。教育信息化的推进以及教育基础设施的建设,为大数据技术在教育领域的应用奠定了良好的基础。

大数据技术正在对社会生产生活产生深刻的影响,过去无法收集和分析的数据被大数据技术赋予了新的可能性,其中关于人们行为和喜好的数据挖掘,使大数据成为了教育变革与创新的重要推动力。传统的教育决策通常建立在个人教学经验和简单的数据分析基础之上,无法提供给每个学生最有效的教学方式。而大数据技术对海量教育数据的留存和深度挖掘,能帮助教师更深入地了解学生知识的掌握情况以及学习偏好,有助于教育机构和教育工作者弥补或改变现行教育中的不足,将推动传统以“教师为中心”的教学方式向以“学生为中心”教学方式的转变,真正做到以人为本、因材施教。

一、教育大数据的概念和特征

教育大数据作为大数据在教育领域中的应用,至今国内外还没有教育机构给出明确且统一的定义。教育大数据可以被理解为所涉及的教育数据规模巨大且种类繁多,以至于传统的处理工具无法进行有效的撷取和处理的教育数据集。教育大数据主要有以下几个特征。

1.海量性

麦肯锡对大数据的定义是指那些规模大到传统的数据库软件工具无法进行采集、存储和分析的数据集[2]。因此,数据量大也是教育大数据的首要特征。随着信息化的发展,大部分学校都采用先进的信息管理系统进行教学管理,教学管理与教学资源的全面整合会产生和记录大量的教学信息。另外,越来越多的学习行为在网络上发生,也导致在线学习平台所生成的教育数据量呈爆发性增长的趋势。

2.多样性

德勤公司专家罗伯特指出:“规模并不是常规数据和大数据之间最主要的区别,大数据的重要属性应该是复杂性和多样性。”[3]传统的教育数据具有明显的结构化特征,但随着教学手段和教学工具的飞速发展,教育数据的品种不断增加,数据结构变得更加复杂,形成了多样且异质的教育大数据,如教学视频、音频、日志、邮件等,这些非结构化的数据背后隐藏着大量的信息,比如学生的学习态度、能力和偏好。大数据时代的教育工作者要学会利用和分析这些不同类型的教育数据,以还原学生学习情况的完整性和真实性。

3.动态性

传统的教育数据更专注于静态记录学生的考试成绩,而教育大数据有能力跟踪和掌握学生的学习动态,比如学生注意力集中时间、回答问题次数等。这些数据是动态且高速变化的,教师不仅可以根据实时的教学数据监测,动态地评价学生的学习成绩和学习效果;还可以根据变化的学习数据随时调整教学方案。斯坦福大学吴恩达教授跟踪学生观看视频讲座的行为发现:如果学生中途点击了关闭或快播键,暗示了讲座内容晦涩难懂或学生不感兴趣,教师可以据此对视频内容进行调整,以期通过改善教学内容来提高学生的理解力和兴趣度[4]。

4.价值性

维克托在《大数据时代》中指出:“大数据时代最重要的是从大数据中挖掘价值。”[5]目前学校所产生的教学数据都是由很多学生行为片段组成且处于分散状态,需要使用大数据技术对这些数据进行整合和利用,通过对这些被锁在“数据孤岛”上的海量数据进行处理,获得具有重大价值的学生行为分析结果,并利用它们为改善学生的成绩提供个性化的服务。教育大数据对学生、家长和教师都具有很高的价值,它可以帮助学生提高学习成绩、帮助家长理解学生的学习行为、帮助教师改进教学方案,以确保每个学生获得有效且高效的定制教育。

5.真实性

教育大数据注重提高数据分析的真实性和可靠性,传统的教育数据由于学校为了排名、教师为了业绩等原因可能被修改或粉饰,这样得到的不真实数据就失去了对学生学习情况判断的准确性。而教育大数据由于基数巨大,不是凭借某一个数据对学生进行评价,而是依靠海量的全息数据对学生进行整体评定,即使某些被修改过的错误信息存在,也不会影响对学生的最终评价结果。

二、基于教育大数据的个性化学习模式构建

个性化的学习模式强调“一个尺寸适合一个人”的教学方式,通过大数据技术来实现个性化教学,使知识的传授能够适应特定的教学环境、学习偏好和学生能力。个性化学习模式由以下几个部分组成。

1.学生学习数据库

个性化学习模式强调“大数据驱动”,由学习数据库记录和存储大量实时、可靠的学生学习行为数据,例如学习路径、日志、讨论、作业等。大数据技术的优势就体现在可以对各种非结构化的数据进行采集和存储,课堂教学、在线学习、辅助教学工具都可以作为数据收集的平台,每次学生的点击、讨论版的互动、博客的进入或任何微小的活动都会被记录下来,生成每生每课的数以万计的学习数据,并纵向传递到分析系统,成为下一步个性化学习分析的重要基础资源。

2.学生基础数据库

学生基础数据库包含了学生的各种基本信息(姓名、年龄、专业、爱好等)、学生的历史学习信息(成绩、先导课程、问卷调查等)。要确保为学习者制定最适合的学习路径,不能仅靠学生的学习行为数据,还要参照历史学习数据,这些数据会综合反映学生的知识储备、学习偏好、努力程度等信息,会形成更加立体的学生学习影像。

3.分析系统

分析系统是对学习数据库中跟踪学生学习轨迹所存储的大量数据进行处理和分析。分析的内容主要包括:学生学习表现、课程与教材选择是否正确、教学方法是否合适等。分析过程首先要对原始学习数据进行归纳和整理,去除无关或难以识别的冗余数据,数据的真实性和时效性是保证最终得出准确分析结论的关键。然后通过大数据方法将数据转化成可以被洞察和操作的模式,获取数据当中潜在的、有效的、规律性的、可以被理解的信息,并形成可视化分析报告。

4.自适应系统

自适应系统主要通过分析系统得出的反馈对学习过程进行自我调整和管理,学生基于数据收集和分析的可视化结论来调整学习路径,比如更换选修课程和学习材料。由于学生的个体情况有很大差异,自适应系统会利用人工智能软件根据学生对学习内容的接受程度,自动对学生的学习行为作出响应,帮助学生调整学习方案。在自适应学习系统中,学习不是被动地接受知识的过程,而是在更正学习过程中发现感兴趣和擅长的知识的过程。自适应系统增加了学生学习的主动性,调节了学生的学习状态和独立思考能力,改变了传统学习的被动局面。

5.个性化干预

个性化的学习干预是通过对学习者基础数据库和系统内学习数据库的数据进行整合,基于分析系统得出的可视化分析结论,结合教师的教学经验,对学习者的学习轨迹进行修订和改善的干预服务。对于学习效果较差的学生要通过互动平台及时给予帮助和干预,其目的在于通过修订教学方案和个性化资源推送来提高学习者的学习效率,并对学习者未来的学习行为进行智能化预测。个性化的教学干预摒弃了传统的“合格-不合格”的评价系统,强调通过数据分析来评估学习者的学习情况并掌握学习者思考和解决问题的方式,以便为其提供必要的引导和帮助,最终得到学习者更全面且精准的评价。

由图1可知,个性化学习模式的流程为:由学生学习数据库收集原始学习轨迹数据传递到分析系统;分析系统通过数据预处理、数据分析功能,利用各种大数据技术生成可视化的学生学习行为分析报告;自适应系统通过数据挖掘和学习分析等工具分析出来的报告,评估学生的学习过程,发现潜在的问题并进行智能干预,引导学生对学习内容进行适应性修正;教师整合基础数据库数据和分析系统得出的结论,结合多年的教学经验,通过干预系统对学生的学习路径进行人为的教学干预,对教学方案进行调整和修订,对学生未来的学习情况进行预测,将传统的同质教育演化成适应每位学生个性化需求的定制教育。

三、基于教育大数据的个性化学习模式面临的挑战

大数据技术运用于教育领域,为传统的“批量生产”式的教育模式带来了巨大变革,将引领教育进入全新的高度个性化的时代。但是,个性化学习模式中所有系统相互作用的前提条件是教学数据提供的准确性和及时性,只有在各系统之间保持快速、及时和准确的信息传递的情况下,大数据分析对教学的作用才能凸现出来。但现在许多学校的教学仍然以传统的面对面课堂教学为主,数据的传递、转换和分析可能出现滞后的情况,会影响最终干预系统分析结果的有效性。因此,大数据技术要在教学领域发挥其应有的作用,还需要学校大力推进教育信息化的建设,提高教学数据处理和分析的能力,才能充分发挥个性化学习模式的作用,真正实现教育的个性化培养。

对学生学习轨迹进行跟踪、记录和挖掘,不可避免地涉及到学生信息的保护问题,尤其在现有个人隐私的法律法规不够健全的情况下,教育大数据领域隐私规则的制定变得迫在眉睫。教育管理者要意识到大数据的使用将涉及到来自道德和法律的双重挑战,学生是教育大数据的创造者和所有者,在对教育数据进行采集和分析的时候,应取得学生和家长的认同和信任,同时制定有关学生隐私保护的法律法规,以保证所有收集到的学生数据都应用于改善教学。

参考文献

[1]教育信息化十年发展规划(2011~2020年)[eB/oL].[2015-10-20].http:///web/content.php?id=6853.

[2]Bigdata:“thenextfrontierforinnovationcompetitionandproductivity”[eB/oL].[2015-09-08].http:///news/2011/06/BigData.

[3]陆Z.大数据及其在教育中的应用[J].上海教育科研,2013(9).

[4]Viktormayer-Sch?nberger.LearningwithBigData[m].CreateSpaceindependentpublishing,2014.