首页范文统计学的分类方法十篇统计学的分类方法十篇

统计学的分类方法十篇

发布时间:2024-04-29 12:24:27

统计学的分类方法篇1

 

一、国内外统计学科分类的现状

 

一些作者认为,统计学在学科分类中将由原来的二级学科升为一级学科;①我国存在着两门统计学,国际上存在着一门统计学。②其实这些说法并不确切,对学科分类的理解也不够全面。

 

所谓学科分类,指在一定条件下运用某些原则划分各门学科的对象和领域,确定各门学:科在整个科学知识体系中的位置,阐明各学科之间的相互关系。③国内外都很重视学科分类何题研究,结合各国情况提出适合需要的分类模式,制定各种分类表。从各国情况看,有以下四种不同用途的学科分类。一是以科研统计和科研管理为目的的学科分类。例如:《联合国教.科文科学技术统计工作手册》、《中国科学院科研项目与档案分类》等。二是以教育管理学科和专业划分为目的的分类。例如:《日本大学学科分类目录》,中国《普通高等学校专业目录》等。三是以文献图书分类为目的分类。如:《美国国会图书馆分类法》、《中国人民大学图书馆图书分类法》等。四是以各种百科全书辞目分类所反映的学科分类情况。④如:《国际社会科学百科全书》分类目录、《大不列颠百科全书》辞目等。

 

很显然,根据现在科学在理论和应用两个方面的进展,根据不同的目的,学科分类是多种多样的。下面我们来看国内外把统计学作为一级学科的分类情况。

 

国内外统计学分类的门类属于社会科学。国内反映学科分类的文献较多,其中参考价值较大的有以下8种⑤:《国家科学技术委员会统计学学科分类与代码》(i989年)、《中国科学院封算机管理用代码手册》(1985年)、国务院学泣委员会办公室和国家教委研究生司《授予博士、硕士学位和培养研究生的学科、专业目录》(1988年)、国家教委高教一司《普通高等学校社会科学本科专业目录与专业简介》(1987年)®、国家教委科技司《国家教委学科分类目录代码〉》〇987年)、中国图书馆图书分类法编辑委员会《中国图书馆图书分类法(第三版)》(1"0年)、《中国人民大学图书馆图书分类法(五版)》(1989年)、《中国大百科全书(全套)》〇982—1991年)。据对这8种文献中社会科学一级学科频率的统计,可以发现:(1)国内8种学科分类文献列出的45门一级学科,其中频率4次以上的有经济学等9门;出现次数多说明公认程度和成熟度较高。(2)统计学作为一级学科出现的频率为2次,说明统计学作为一级学科早在1992年以前就已存在,只是公认程度还不算很高。

 

对国内这8种学科分类文献进一步研究还可以看出,所谓“两门统计学”之一的数理统计学,从来没有作为一级学科存在过,它只是一级学科数学下面的一个二级学科。

 

因此,应该澄清统计学科体系研究中的一些含混说法。第一,统计学“上升为一级学科”的提法不准确,只是说应该在更多学科分类中争取它的一级学科地位,特别是在国家有关部门的官方文献中。第二,两门统计学的提法很不确切。如果两门指的是二级学科(数理统计学,社会经济统计学),那一级学科应该就是统计学。如果一门指的是一级学科社会经济统计学或一级学科经济学下的二级学科,一门指的是一级学科数理统计学或一级学科数学下的二级学科,前者显然不仅不符合学科分类原则,也违背逻辑,不可能数学同时存在两个一级学科。后者也违背提出两门统计学的初衷,既然是二级学科,就独立不起来。

 

国外统计学作为一级学科存在,在门类(大类)里归属于人文、社会科学。数理统计学无论在那种分类文献中都不是一级学科。据对联合国教科文组织于70年代初期出版的3卷本专著《社会科学和人文科学研究中的主要趋势》、《国际高等教育百科全书》、《大不列颠百科全书》、《日本大学学科分类目录》、《美国国会图书馆分类法》等15种参考价值较大的学科分类文献统计,统计学作为一级学科出现的频率为6次,说明国外统计学作为一级学科存在,已经是比较成熟和公认的了。

 

二、建立适合中国国情的统计学学科体系

 

统计学在形成和发展中,经历了一个漫长、曲折的过程。如果说以前对统计学的地位、对象争议还比较多的话(这种争论自然还会持续下去),随着国家标准关于统计学学科分类与代码在我国的与实施,统计学科分类应用研究就显得十分重要。'

 

(一)继续加强统计学学科体系理论研究

 

长期以来,我国统计学学科分类及其应用研究十分沉闷,思维狭窄,阻碍了统计学的发展。(i)1979年以前,把统计学学科体系研究同政治形势挂钩,忽视了统计自身发展的规律。(2)强调数理统计学和经济统计学是两门统计学,两门之间相互隔绝、相互排斥。(3)将数理统计归属于自然科学的数学,经济统计归属于社会科学的经济学,认为二者之间鸿沟不可逾越,看不到社会科学与自然科学的结合、渗透、交叉。统计学学科体系研究,首先要有新的视野,新的思维。把握现代科学发展特征。人类文明发展到今天,现代科学同时在微观和宏观两个方向获得重大威果,在理论和应用方面取得卓越进展,在高度分化的同时又在高度综_合相互统一协调,由单线联系走向多维的联系。现代科学结构是一个全新的多层次的综合性的庞大网络体系,我们要把握现代科学发展的这些特点,构筑统计学的新体系。

 

1.统计学一级学科的设置。统计学是一门搜集、整理、分析数据并进行统计推断和预测的方法论科学。方法论包括两个层次的含义:其一是方法论研究,包括调查方法、整理方'法、分析方法、推断方法和预测方法。其二是运用统计方法帮助人们认识、解决自然现象、社会现象、经济现象以及医学、工程、环境等领域的具体实际问题。从统计方法的应用说,统计是人们认识世m认识社会的一种手段和工具,指导人们认识、探索、分析事物的规律,所以,统计学的研究对象包括自然现象、社会现象,经济现象,它的研究内容十分广泛,无所不包,包括人们科学实验,社会生产和生活中认识的领域或待开发的领域,只要有人类活动,就有统计方法的应用。

 

一门科学是一个历史的私动的[本系。统计学的理论体系,除继续巩固、发展比较成熟时数理统计、经济统计、人口统计外,还应该广为吸收、融合现代其他科学营养,开拓新的生存、发展空间。比如,吸收数学、信息科学与系统科学、计算机科学技术、哲学、法学、经济学等科学理论和方法,_进行移植、综合、交叉,形成新的研究方法和研究领域,加深统计学理论基础,扩大统计认识范围。统计学传统理论中,数据搜集、推断方法比较完善和精涞(可以归结为提供统计数据功能),统计学在发展中,完全有可能也有必要向统计规律、统计控制,统计信息技术方面发展;这些领域将会涉及许多理论和方法问题。统计学成为一级学科,将更有利于统计理论的深化和应用的发展,促进统计学的成熟程度。

 

2.统计学二级学学科设置。二级学科的设置应考虑:(1)划分标志选择统计一般方法和研究领域两个标志。(2)根据学科特点考虑到在有限的三级学科分类体系中能反映该学科的全貌。(3)留有余地,以便扩延。在分类体系相对稳定的情况下,为萌芽中的新兴学科留有余地,以得到必要的补充和延续。二级学科设置10个:①理论统计学,②数理统计学,③经济统计学,④社会统计学,⑤自然科技术统计学,⑥环境生态统计学,⑦统计法学,⑧国际统计学,⑨统计学史,⑩统计学其他学科。

 

一部分统计二级学科具有交叉性和双重属性(例如经济统计,是统计与经济交叉的突出例子之一。一个时期以来有人对经济统计颇有微词,认为它不是科学,这是不公正的。有人认为经济统计能否从经济学中分离出来才是统计学成熟的标志。恰恰相反,从科学发展趋势看,二者的交叉,结合,既是经济学发展的需要也是统计学发展的必然)。建议在两处列类,两处编码。例如数理统计,既作为统计学的二级学科,又作为数学的二级学科;经济统计,既作为统计学的二级学科,又作为经济学的二级学科。

 

3.统计学三级学科的设置。统计学三级学科的设置以研究内容和应用为主要划分标志。考虑到学科发展的不平衡和分类习惯,有的二级学科下可暂不列出三级学科。本文提出部分统计学二级学科的三级学科如下:(1)理论统计学,包括:统计调查理论,统计分组理论,统计分析理论,统计指标理论,统计指数理论,统计信息理论,统计控制理论,统计预测理论,计算统计学,统计逻辑学,统计系统与管理等。(2)数理统计学,包括:抽样方法,假设检验,非参数统计,相关回归分析,统计推断,贝叶斯统计,多元分析,时间序列分析等。U)经济统计学,包括:国民经济统计,企业统计,运输统计,流通统计,财政统计,金融统计,价格统计等。(4)社会统计学,包括.人口统计,教育统计,卫生统计,生活统计等。(5)自然科技统计学,包括:科技管理统计,生物统计,遗传统计,心理统计,气象统计,农业统计等。

 

(二)强化统计学一级学科地位

 

如前所述,我国现有学科分类文献中把统计学列为一级学科的还不多。尽管国家了学科分类标准,我们仍不能仅仅满足于此,而是要让更多的学科分类文献贯彻体现国家分类标准,反映统计学成熟程度,体现现代科学发展趋势,将统计学列为一级学科。

 

当前要做的,一是要面向社会大力宣传国家学科分类标准。统计学科建设,不仅仅是统计理论工作者的事,它关系到统计的前途和发展,也关系到我国现代科学的发展。二是继续加深对按一级学科建设统计学的重要性的认识。统计学成为一级学科,是统计学自身内在发展的需要,是统计学研究对象共同特征和研究方法的通用性所决定的,完全具有必要和可能。不存在硬争统计学一级学科地位问题。三是经济统计、应用统计、理论统计工作者加强联系,携手共进,研究统计学的发展特点,内在规律,建立大统计,大统计学科。四是有步骤地向有关部门、权威机构宣传、反映、介绍统计学的发展和现状,以便将来修改、制订学科分类表时将统计学列为一级学科。五是国家统计局要广泛调查研究,制定贯彻实施国家学科分类标准的具体措施,使统计学一级学科地位真正确立起来。

 

(三)在高等学校系科专业设置中体现统计学一级学科地位

 

国内目前学科分类文献中,国务院学位委员会、国家教委联合颁布的《技卞傅工、硕士-学位和培养研究生的学科、专业目录》和国家教委的《普通高等学校本科专业目录》是两个很重要的具有实际意义的分类文献。分类的基本原则是专业设置一般以学科为主。按照这种划分就出现了令人困惑的结果:统计学一方面是经济学(一级学科)的二级学科,一方面又是数学(一级学科)的二级学科。于是在大学里就出现了一个在经济学下的统计学,一个在数学下的统计学。在研究生专业目录中还有卫生统计、生物统计、农业统计、工程统计等专业。这种状况,很不利于统计学的发展,也不利于统计学的国际交流和比较。

 

鉴于高校系科专业设置影响十分巨大,建议国务院学位委员会、国家教委尽快对这两个文献加以修订,将统计学列为与哲学、经济学、数学等并列的一级学科。

 

高等学校系科专业目录将统计学列为一级学科后,二级学科如何设置?一是沿用现在做法将原经济学下的统计学称为经济统计学(专业),将原数学下的统计学称为数理统计学(专业),再设置社会统计学(专业)、人口统计学(专业)两个二级学科,卫生统计学(专业)等可采用双重属性原则列入相关的一级学科。专业目录里统计学为一级学科,二级学科(专业)四个,可以和国家分类标准不完全保持一致。二是从长远看,我国现行专业设置划分太窄太细。大学应该按大学科组织教学,不设专业,只设系科。这样,就只有一个统计系,各院校根据自己的特长和优势,结合社会需求,课程设置各有侧重。

统计学的分类方法篇2

关键词:大数据;经管类专业;课程体系

大数据时代给社会经济发展带来了机遇和挑战,社会各行各业对数据分析需求大幅上升,需要借助数据分析实现数据的增值,挖掘数据背后的潜在价值,为其经营管理决策、投资决策提供智力支持。随着社会经济发展对具有数据管理和数据分析能力的应用创新型经济管理人才的需求逐渐攀升,也引发了对高校经管类专业学生能力的更高要求。面对纷繁复杂的社会经济环境,经管类专业学生必须能够广泛应用定量分析技术,能够从海量数据中获取有效数据,运用科学的方法从这些数据中提取出有用信息,建立相应的模型,作出最优决策。统计学是培养经管类专业学生定量分析能力的一门重要课程,是众多高等院校经管类专业的专业基础必修课,是以后深入学习相关定量方法类课程(诸如计量经济学、管理运筹学、市场调查与预测等)的基础。因此,统计学课程体系设置是否合理,将直接影响到学生获取有效数据和分析数据应用能力的培养,进而影响学生定量分析能力的培养。

一、经管类专业统计学课程体系存在的问题

1.课程教学定位模糊。

我国高等院校经管类专业统计学教学中的最大弊端在于一直按照前苏联划分方式将其归类为一门偏重于简单数据整理课程,而将相应的统计分析所采用方法和理论归为数理统计,因此在教学中不重视对后者的学习。然而,西方发达国家的统计学课程是同时包括这两个部分内容的,尤其是后一个部分内容是定量分析的重要基础。因此,在传统统计学教学定位下,学生只认识了基本理论与概念,却掌握不了处理和分析数据的能力,这与经管类专业应用型人才培养目标相背离,难以适应大数据时代社会各领域对经济管理人才素质的新需求。

2.课程体系有待完善,与经管类专业融合不够。

目前,大多数高等院校经管类专业统计学课程设置只涉及理论统计学这一领域,未将统计分析方法与相关经管类专业知识有机结合。在这样的课程体系安排下,学生虽然掌握了统计基本理论和方法,但难以体会到统计在本专业学习中的应用价值,当面临现实的经济、管理问题却无能为力,不会运用所学统计方法,结合专业知识对实际问题进行定量分析。这种状况与经管类人才定量分析能力培养目的相违背,难以实现具有创新能力的经管类人才的培养目标。因此,如能结合经管类专业特点,对统计学的课程体系进行优化建设,势必能够培养出具有定量分析技能,满足社会需求和企业需求,符合大数据时代人才素质要求的经济管理人才。

二、大数据时代经管类专业统计学课程体系构建

1.明确课程教学定位。

目前,统计学教学中偏重于统计学基本概念、基本模型和基本方法的理论知识学习,系统性较强,有利于学生全面了解统计学的知识体系,但是对统计思维能力的培养和统计方法的应用重视不够,这不仅会让学生望而生畏,从而失去学习的主动性与积极性,更为重要的是学生不能够学以致用,在自己本专业深入学习过程中不会运用统计学知识来解决实际的经济管理问题,而在教与学中出现的这些问题源头在于教学定位不够准确。因此,本文提出新的课程教学定位:以应用创新型人才培养为导向,提高经管类专业学生定量分析能力为目标,结合经济学科和管理学科的特点,通过统计学的理论教学、案例分析、课程设计、实验(践)等教学环节,培养学生统计思维能力和统计应用能力,具备运用统计学理论与方法,研究社会经济管理领域有关数据收集、整理、分析等解决实际问题的综合能力,以适应大数据时代对经济管理人才的新需求。

2.课程体系优化建设。

根据新的教学定位,统计学课程体系优化建设的基本思路:一是课程体系设置要强调基础知识、注重灵活应用、突出定量分析的教学理念和教学目标;二是课程结构上,突出专业针对性,强调统计学科和经济学科、管理学科的有机结合,使课程特色化;三是建立实践教学体系,加强学生实践能力的锻炼,为学生提供综合素质和能力提高的实训平台;四是将统计分析软件的运用融入到课程体系之中,加强统计分析软件的技能培养。因此,本文将运用模块化系统集成思想,根据经济与管理类各专业的要求,提出按专业分模块,按模块分层次,按层次定内容的改革方案,构建“课程体系课程子系统课程模块具体内容”的递阶控制结构模型。在统计学课程体系优化建设中,我们运用系统科学的方法构建出模块化、层次化集成的课程体系在整体功能上达到了最佳状态。课程基础子系统是统计学理论基础和统计思维培养阶段,由统计学基本原理和基本理论构成,体现了“厚基础”的功能。课程应用子系统和课程案例子系统是统计分析能力训练阶段,首先结合认知性案例模块系统介绍统计分析方法,让经管类专业学生了解统计分析方法的基本原理,其次进一步结合专业特色案例模块和统计分析软件模块,通过分专业教学方式,使不同专业学生能够体会到统计学在本专业中的应用,增强学生的学习兴趣,体现了“强能力”的功能。课程实践子系统是统计应用能力实践阶段,是培养大数据时代应用型经管人才的重要环节。课程实践主要包括课堂实践和实验室模拟,课外实践主要包括社会实践活动、实训实习和相关竞赛,通过课程实践和课外实践两大平台训练学生运用所学统计调查、统计整理和统计分析等知识解决实际问题的综合能力。课程选修子系统是统计应用能力扩展阶段,该阶段在学生掌握统计学相关知识的基础上,通过选修统计预测与统计决策两大模块,进一步培养学生的定量分析能力。

三、结束语

大数据时代经管类专业统计学课程体系构建,应注重强化基础理论,突出知识的实用性和创新性,做到统计知识与实例分析相结合,与软件应用相结合,理论教学与实践教学相结合,与实际应用相结合。根据经管类各专业特色,以“知识+能力+应用”模式进行模块化、层次化课程体系设置,从本质上提升学生的数据素养和信息素养,提高解决实际问题的定量分析能力,以适应大数据时代对人才素质的新需求,使具有数据管理和数据分析能力的经济管理人才在就业市场上更具有竞争力。

参考文献:

[1]孙根年.课程体系优化的系统观及系统方法[J].高等教育研究,2001,(2).

[2]曾五一,肖红中、庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2012,(2).

[3]姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究(成都),2012,(3).

[4]朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究(成都),2014,(3).

[5]姜钮,姜裕,吕洁华.高校经济管理专业统计课程教学改革探讨[J].教育探索,2014,(6).

统计学的分类方法篇3

关键词:生物信息学医学统计学课堂教学

生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:Dna分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。

目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:

一、概率分布

概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、possion分布、正态分布、t分布、F分布等。

借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从poisson分布,我们就可以借助poisson分布的原理定量地对上述现象进行研究。

在生物信息学中概率分布也有一定应用。例如,poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLaSt(BasicLocalalignmentSearchtool)能迅速将研究者提交的蛋白质(或Dna)数据与公开数据库进行相似性序列比对。对于序列a和b,BLaSt发现的高得分匹配区称为HSps。而HSp得分超过阈值t的概率p(H(a,b)>t)可以依据poisson分布的性质计算得到。

二、假设检验

假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(anoVa)和非参数检验方法。

假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用&#;检验比较不同治疗方法的有效率是否相同等等。

这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。

例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。

如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。

但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平m值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是m的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由m的方差s的均数和标准差估计得到。三、一些高级统计方法在基因研究中的应用

(一)聚类分析

聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的

  

归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、Som方法等。

聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。

近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(Unsupervisedanalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(averageLinkageClustering)一般能给出较为合理的聚类结果。

(二)判别分析

判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-nearestneighborClassifiers)、分类树算法(Classificationtreealgorithm),人工神经网络(anns)和支持向量机(SVms)。

判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。

在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(Supervisedanalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVms)和人工神经网络(anns)是两种较新,但很有应用前景的方法。

(三)相关分析

相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。

我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。

生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。

四、意义

生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。

在医学统计学课堂教学中引入生物信息学实例,而不仅仅局限于常见的医学、卫生领域的例子,将难以理解的统计理论和方法与前沿的生物实例相结合,拓宽了学员的视野,提高了学员的学习兴趣,更可以加深对所学知识的理解;与此同时,使学员掌握了生物实验数据的先进分析方法,扩大了学员的知识面,提高了他们今后开展医学科研工作的能力。

统计学的分类方法篇4

目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:

一、概率分布

概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、possion分布、正态分布、t分布、F分布等。

借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从poisson分布,我们就可以借助poisson分布的原理定量地对上述现象进行研究。

在生物信息学中概率分布也有一定应用。例如,poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLaSt(BasicLocalalignmentSearchtool)能迅速将研究者提交的蛋白质(或Dna)数据与公开数据库进行相似性序列比对。对于序列a和b,BLaSt发现的高得分匹配区称为HSps。而HSp得分超过阈值t的概率p(H(a,b)>t)可以依据poisson分布的性质计算得到。

二、假设检验

假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(anoVa)和非参数检验方法。

假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。

这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。

例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。

如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。

但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平m值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是m的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由m的方差s2的均数和标准差估计得到。

三、一些高级统计方法在基因研究中的应用

(一)聚类分析

聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、Som方法等。

聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。

近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(Unsupervisedanalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(averageLinkageClustering)一般能给出较为合理的聚类结果2。

(二)判别分析

判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-nearestneighborClassifiers)、分类树算法(Classificationtreealgorithm),人工神经网络(anns)和支持向量机(SVms)。

判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。

在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(Supervisedanalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVms)和人工神经网络(anns)是两种较新,但很有应用前景的方法。

(三)相关分析

相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。

我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。

生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。

四、意义

生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。

统计学的分类方法篇5

【关键词】多元统计;聚类分析

【中图分类号】G648.4【文章标识码】B【文章编号】1326-3587(2011)07-0004-02

聚类分析是多元统计中研究“物以类聚”的一种方法。在经济、社会、人口等诸多方面的研究中,都需要采用聚类分析作分析研究。过去人们主要靠经验做定性分类处理,很少利用数学方法和原理。所以许多的分类往往带有主观性和任意性,不能解释客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题。

聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。

一、聚类分析的基本思想

聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),因此可以根据一批样品的多个观测指标,找到一些能够度量其相似程度的统计量,并根据这些统计量事物的分来进行分类。

二、聚类分析的基本概念

(1)分类。

1、按照其聚类的方法可以分为以下几种:

系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。

调优类(动态聚类法):对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。

最有分割法:先将n个对象看成一类,然后根据某种最有准则将它们分割为二类、三类,分割到合理的k类为止。

还有模糊聚类法,图论聚类法和聚类预报法。

2、按照对象的不同可以分为Q型聚类和R型聚类。其中Q型聚类是根据样品进行的分类处理,而R型聚类,则是根据变量。

(2)测量尺度:距离和相似系数。

距离和相似系数,是聚类时用来度量其接近或相似程度的统计量。通常的方法,是根据统计研究对象的特点,设置一些指标并采集一些样品,如选用n个样品,p个指标,则可得到一个n*p的数据矩阵。

矩阵的意义,可认为是p维空间中的n个点,他们分别代表代表具有p个特性和n个样品。通常可以这样理解,具有共同特性的样品在空间上的距离较近或具有较高的相似性,且它们可以用距离或相系系数去具体刻画。聚类,是根据样品聚类时,用来刻画其“靠近”程度的;相似系数是根据指标聚类时,用类刻画其相似性或相关性的。

(1)距离,用表示第i个样品与第j个样品之间的距离。最常见,最直观的距离有绝对值距离和欧氏距离,即:

绝对值距离

欧氏距离两者可以统一为“闵科夫斯基距离(minkowki)”:

在刻画距离时,数据的标准化处理往往是必要的。

还有兰氏距离,马氏距离,斜交空间距离等。

(2)相似系数,用表示第i个指标与第j个指标间的相似系数,其值从0到1,表示从疏远到密切的程度,常用的相似系数,有夹角余弦和相关系数,即:

它是指标向量之间的夹角余弦,可以证明,=1-关系式成立。

三、聚类过程

以对指标聚类(R型聚类)为例,其聚类过程为:

(1)取=1,把每个指标各作一类,m个指标有m类。

(2)取=max{},将具有相同的指标归并为一新类,如n={}。

(3)构造新的m-1阶矩阵。在新的m-1阶矩阵中,新类(如n={})与其余类如(w≠t,w≠s)的聚类统计量的计算方法有:最大法=max{,};

最小法=min{,};加权法=+。

(4)取将具有相同的指标归并为又一新类。

(5)构造新的m-2阶矩阵。在新的m-2阶矩阵中,该新类与其余类的聚类统计量的计算方法同步骤(3)。

仿此继续进行聚类,直到所有指标均归为一类。根据选取的聚类统计量的不同计算方法,可把聚类过程分为:

a、最大统计量法聚类过程;

b、最小统计量法聚类过程;

c、加权统计量法聚类过程。

其中加权统计量法聚类过程因的不同选取将变化多端,如选即为常用的平均统计量法聚类过程。

四、不同聚类方法的比较

系统聚类法一次形成类以后就不能改变了,这对分类方法的要求比较高,计算量较高,相应地,对计算机的内存要求较高。

动态聚类法具有计算量较小,占用计算机内存空间较少,方法简单的优点,适用于大样本的Q型聚类分析。

【参考文献】

1、石军、熊苡,《多元统计、聚类分析法在自然资源开发中的应用》山东理工大学学报

2、张世强,《关于数理统计中系统聚类法的讨论》中国卫生统计2005年10月第22卷第5期

3、袁清珂、赵汝嘉、段福兴、车军,《系统聚类分析方法与分类布点决策的研究》农业工程学报

统计学的分类方法篇6

关键词:统计类专业《宏观经济学》教学改革

一、引言

统计学专业教学规范提出,授经济学学士学位的统计专业的培养目标是:培养德才兼备的复合型和应用型经济与管理类高素质统计人才。授予理学学士学位的统计专业的培养目标是:掌握良好的统计学、经济学、金融学、保险学基本理论和方法及计算机应用技术,能熟练使用和开发精算软件,具有较强的分析数据和处理数据的能力及对保险、银行、证券、社会保障等领域有关问题进行观察、计量、精算和预测的综合能力的应用型高级专门人才。根据统计类专业培养目标,结合统计学专业特点,新规范中给出的一般经济类基础课程和其他经济类专业(如经济学、财政、金融等)有所不同,要求普遍开设的课程只保留宏观经济学、微观经济学和会计学等三门课程,可见宏观经济学在统计类专业中的重要性,但是宏观经济学在统计类专业的实际实施过程中却存在不少问题,本文试图从问题入手,为《宏观经济学》课程在统计类专业中顺利开设提供一些有价值的建议。

二、统计类专业《宏观经济学》课程开设中存在的主要问题

《宏观经济学》是统计类专业人才培养方案中非常重要的专业基础课程,而且是一门紧密联系实际的实践性课程。统计类专业《宏观经济学》的教学对象与传统教学对象存在差异,如果完全照搬经济类专业宏观经济学课程的开设,实施效果肯定就会大打折扣。具体来说,统计类专业《宏观经济学》课程开设中存在的问题主要表现在以下几个方面:

第一,对经济理论基础认识不足,对经济理论学习重视不够。从统计类专业的培养目标可以看出统计类专业的生命力在于应用,而应用的理论基础就是经济学,只有有了扎实的经济理论基础,才能更深入地进行统计定量分析,得出的结果才会正确,才更具有现实指导意义。但现有社会经济统计专业,从教学目标、教学内容等诸环节,对经济理论基础重视不足,并且不同统计专业方向对经济理论基础的要求存在一定的差异,可这些都没有在教学目标、教学内容等环节得到体现。从社会需求角度来看,统计类专业毕业生不论是从事经济管理还是理论研究,都存在发展后劲不足的现象。因此,应加强《宏观经济学》教学,引起学生足够的重视。

第二,数理基础不够深厚,数理分析方法应用不足。宏观经济学已经成为一门高度抽象化的学科,数理分析方法在其发展中发挥着非常重要的作用。并且这种数理分析方法不仅运用于高级宏观经济学课程中,而且在初级、中级课程中大量涉及。统计类专业开设的数理基础课程主要以概率论为主,并且授课教师是从纯数学角度(包括教学思路和教学方法)讲授的,由于学生数学功底相对薄弱,并且所学内容与本专业其他课程联系不大,使学生缺乏学习积极性。同时,在课程设置次序上,本科阶段高等数学和宏观经济学的开设基本同步,而概率论、数理统计、线性代数等相关课程甚至晚于宏观经济学的开设,严重影响宏观经济学教学效果。

第三,教学方法单一,教学效果不显著。由于宏观经济学理论性强,派别多,系统庞大,教学内容丰富,涉及大量图表、经济模型和专业术语,并且使用的教材基本为国外教材,与中国现实国情存在差距,要求教师在教学过程中进行必要的教学方法探索和改革。从当前教学实践来看,讲授型课堂仍然在宏观经济学课堂教学中发挥着至关重要的作用,由于内容形式单一,学生参与积极性不高,从学生反馈评价来看,学生不能及时理解掌握基本理论和要点,教学效果不理想。

第四,师资力量薄弱,不符合人才培养要求。根据统计学专业培养目标,统计类专业学生应为德才兼备的复合型和应用型经济与管理类高素质统计人才,因此,统计类专业教师要有良好的数学基础和经济学基础。然而,现有从事宏观经济学教学的统计类专业教师大部分是纯经济学学科背景,他们的数理基础薄弱,统计思想欠缺,不能很好地根据人才培养方案实施有针对性的教学,这种问题必然导致经济理论与统计方法脱节,导致学生知识结构不清晰及制约学生将理论运用到现实的能力培养。

三、统计类专业《宏观经济学》课程教学改革的重点

第一,合理设置课程体系,适当增加课程学时。目前,国内大部分高校统计类专业的《宏观经济学》本科课程学时基本都是54课时左右,甚至更少,只有36课时。这样的学时安排使宏观经济学几个重要基本理论平均每部分课时只有不到十个学时,这样的授课学时只能保证基本概念、基本理论知识的课堂传授,同时更重要的一点是目前国内高校统计类专业经济类基础课程只开设了微观经济学、宏观经济学、会计学,没有其他如政治经济学等经济类基础课程的学习,使经济基础相对薄弱的统计类专业学生在学习经济类基础课程的过程中会显得更吃力。因此,如果教师要在介绍基本概念、基本原理的过程中对相关内容进行进一步拓展,那么这样的学时安排显然不够,谈不上课堂作业讲解,更谈不上旨在提高学生专业素养、提高阅读经典文献能力的研讨式教学法和案例式教学法的引入。因此,为了引起统计类专业学生对经济理论基础的重视及更好的教学效果,宏观经济学教学课时应该适当增加,争取达到每学期72学时。

第二,增开数学课,增厚学生数理基础功底。随着数理分析方法在宏观经济学发展中的应用越来越频繁、越来越重要,加强学生数理分析基础显得愈加重要。虽然初级宏观经济学没有太多数学方法的使用,但是中级、高级宏观经济学则会涉及非常多的数学工具,如动态优化、拓扑等。目前国内大部分高校本科生开设的数学课只有高等数学、线性代数、概率论与数理统计等课程,无法满足学生学习中级高级宏观经济学对数学的要求。因此,增开包括数学分析、随机过程等部分数学专业课,为有志于继续深造的学生打下坚实的数学基础。同时,调整数学基础课程与宏观经济学课程的开设顺序,在学生有一定数理基础的前提下开设宏观经济学,能让学生更好地掌握宏观经济学。

第三,改革教学方法,提高教学质量。从当前教学实践来看,讲授型课堂仍然在宏观经济学课堂教学中发挥着至关重要的作用,但由于内容形式单一,学生参与积极性不高,从学生反馈评价来看,学生不能及时理解掌握基本理论和要点,教学效果不理想。因此,针对本课程的学科特点,在本课程教学过程中引入研讨式教学法,通过构建研讨型课堂,不仅能提高学生学习参与积极性,加强师生与生生互动,还能培养学生自主学习能力和创新能力,采用案例式教学法,大量引用国内现实宏观经济案例,鼓励学生进行课前小组讨论,有效利用各种现代多媒体教学资源开展案例教学。案例教学使学生由被动学习变为主动学习,提高学生积极性,有利于培养应用型、创新型人才,实现人才培养目标。

第四,合理设置考试方式,建立全面健全的评价体系。考试是教学工作的最后一个环节,是衡量教师教与学生学效果的重要手段,但传统考试形式单一,一般为闭卷考试,同时,考试内容单调,无非就是单选题、多选题、填空题、判断题、计算题、简答题和论述题,答案基本是确定的,学生即使没有深刻领会吃透教材内容,靠死记硬背、照搬公式,同样可以取得好的卷面成绩,而且有的教师为了提高及格率,会在考前划所谓的重点,有部分短时记忆较好的学生靠考前的突击冲刺,也能拿到很好的成绩,因此,这种考核方式根本不能真正达到检验学生学习效果的目的。所以,针对在宏观经济学课堂中引入研讨式教学法和案例式教学法,考核方式可以更加多元、更加全面。一方面,考核时间不再局限于期末考试,可以延伸到课前准备、课中讨论、课后总结评价等。另一方面,考核能力要求不再是单一的概念理解记忆,包括研讨式教学法和案例式教学法,让学生通过对课外资料的阅读和分析及课堂集体讨论等,对学生阅读能力、语言表达能力、组织能力、专业素养等进行综合评价。

第五,鼓励宏观经济学专业教师转变专业方向,增厚数理统计基础。现阶段,从事统计类专业宏观经济学教学的教师基本本硕都是经济类专业,使他们在从事统计类专业的宏观经济学教学过程中,不能很好地领会统计类专业培养目标,把统计类专业学生按照经济类专业学生培养,结果就是不能突出统计类专业的专业特色。所以,为了更好地提高教学质量,高校在师资队伍建设过程中,可以鼓励经济学背景的教师攻读数理统计学,加深对统计学学科的了解,弥补基础理论知识薄弱的不足,增厚数理统计基础,不仅可以提高师资队伍水平,而且可以使学生更好地把握统计学与经济学之间的联系,增强教学效果。

参考文献:

[1]宋丽影,赵临龙.关于统计学专业发展的思考[J].统计与信息论坛,2015(2).

[2]谢琦.宏观经济学案例教学中存在的问题及对策研究[J].中国劳动关系学院学报,2010(6).

[3]曼昆.宏观经济学[m].北京:中国人民大学出版社,2010.

[4]韩芳.浅析研讨式教学在高等教育中的应用[J].科教文汇,2010(1).

[5]袁卫.机遇与挑战――写在统计学成为一级学科之际[J].统计研究,2011(11).

统计学的分类方法篇7

关键词:统计教学;满意度;多分有序probit模型;教学成效

中图分类号:G642.0文献标志码:a文章编号:1674-9324(2014)23-0121-03

一、引言

《统计学》是一门搜集、整理、分析数据并进行推断的方法论学科,其目的就是探索数据的内在规律性,使人们对所研究的问题有更深入的了解和把握,其专业技术性和实践性都非常强。对于经管类专业的《统计学》课程来说,其培养目标就是使学生能运用科学的统计方法去分析和解决社会现实中的实际问题,为今后从事经济管理工作打下基础。因此,经管类专业的《统计学》课程教学应顺应市场经济的发展和高等教育的新要求,本着“服务专业,突出应用”的原则,加强对学生素质和能力的培养和训练,培养出适应社会发展需要的应用型经管类人才。但从教学实践来看,尽管近年来国内院校经管类专业统计教学在教学内容设计、教学方法和手段、考核方式等方面进行了大量的改进,但是,当前非专业《统计学》课程的实际教学效果仍不够理想,为此,以在杭高校的经管类专业学生为例,通过统计调查探究《统计学》在经管类学生科研创新及实践中的应用状况及教学满意度,并据此提出针对性的意见及建议。

二、经管类专业《统计学》教学现状分析

为探析经管类专业《统计学》教学满意度,从教学目标与课程安排、教学内容、方法和手段、教学应用与效果评价等多方面设计调查问卷展开统计调查。本次调查总共发放问卷550份,回收521份,其中有效问卷485份,有效率达93.1%。在所有受访者中,男女同学的比例为36∶64,符合经管类专业学生的性别分布特点,问卷涉及各个专业,具有普遍代表性。

(一)学生对统计教学的基本评价

1.课程设置与本专业目标的符合度较高。调查结果显示,51.34%的人认为统计课程与本专业培养目标基本符合,26.80%的人认为比较符合,10.10%认为很符合,只有2.89%的人认为很不符合。可知《统计学》课程设置与各专业的培养目标符合程度较高。

2.统计学在以后专业学习中的作用较大。在调查的群体中认为《统计学》该门课程设置基本有用、比较有用和非常有用的人数占63.30%,只有4.95%认为是基本没用的,可以认为设置《统计学》这门课程是非常有必要的。

3.统计教学的专业针对性不够强。63.09%的同学更倾向于分专业组织上课,他们认为不同专业对于统计知识的接受程度、基础知识掌握程度是不同的,增强统计课程学习的专业针对性很有必要。但同时,学生反映当前非专业《统计学》课程主要通过介绍统计学的基本原理和基本方法,特别强调各不同专业需要掌握的共性统计理论知识,与专业的融合不够,导致教学效果较差。

4.男女同学对《统计学》课程的难度、兴趣度及实用度等方面的看法存在显著差异。50.52%的同学认为《统计学》课程基础实用,29.90%的同学认为课程难度大,24.54%的同学认为统计学枯燥无味,只有11.34%的同学选择课程是生动有趣的。由此可以很明显地看出该课程的教学虽然是有用的,但是由于难度较大使部分学生无法接受而且上课的兴趣不大。可见,《统计学》教学需要改进以使更多学生对该课程产生兴趣,使实用性扩大。

进一步探析男女同学对统计课程的看法差异,运用假设检验对课程难度、兴趣度、实用度、基础实用度、生动及抽象程度等方面进行分析。结果显示,在5%的显著性水平下,男女同学对课程难度(p值为0.018)和实用度(p值为0.002)的看法存在显著差异。

5.学生对实践中巩固统计学知识的意愿较强。学生是否愿意在实践中巩固统计理论知识是实现统计学的关键。调查结果表明,80%以上的同学愿意在实践中巩固所学的统计学知识,可见在课程教育中应增加更多的实践训练。同时,在考核方式上,绝大部分学生也愿意增加实践操作考核。

(二)《统计学》课程教学现状及存在的问题

1.教材主要存在结合案例不足及缺乏趣味等问题。学生普遍反映:教材结合案例不够(39.18%)、材料缺乏趣味(38.14%)、忽略统计软件应用(37.73%)以及过于注重数学公式推导(36.49%)等问题是当前统计教材存在的主要问题。

2.教学内容与专业融合度不够并过于机械化。被调查者认为教学内容主要问题在于与相关专业融合不够的占57.88%,认为教学内容过于机械化的占40.82%。

3.教学方法和手段过于传统落后。调查结果显示,三分之二以上(68.45%)的学生认为统计教学方式多为灌输式教学,启发式、互动式、案例式教学不足的问题非常突出。此外,统计实践教学的缺乏、师生交流过少等问题也不可轻视。

4.考核方式单一,考核内容过于理论化。考核方式中存在的问题最为突出的是考试内容过于理论化(占55.05%),其次是缺少对应用技能考核(占41.65%)。由此可见学生更愿意接受实际操作性的东西,对于理论的内容认为考核中可以少出现。

(三)《统计学》在学生创新研究和实践中的应用状况

1.对统计方法的运用认识大多限于统计描述分析,对统计推断方法的应用价值了解不够。调查结果显示,大多数学生认为统计调查方案设计(62%的同学选择了此项)、问卷设计(61.3%)、统计调查方法(49.9%)及统计图表分析(44.7%)等方法对将来用途较大,其余依次是相关回归(32.4%)、假设检验(29.9%)、参数估计(26%)、统计指数(22%)和时间序列分析(15%)等。可见,当前学生对统计方法的运用认识大多还限于统计描述分析,对于统计推断方法的应用价值了解还不够。

2.统计调查和整理方法运用较广泛,对于统计推断方法的运用相对较少。调查结果显示,当前经管类专业的学生曾运用过的统计方法主要集中于问卷设计(70.4%的同学选择了此项)、统计调查(46.8%)、方案设计(46%)、统计图表(35.6%)及频数分析(23.8%)等最基本和最简单的方法,对于统计推断方法的应用,除相关回归(22.8%)和假设检验(21.5%)外其余则较少。可见,当前经管类专业的学生对统计知识运用的深度及广度还远不够。

3.学生在各类实践竞赛和创新研究中运用统计知识分析和解决实际问题的能力较为薄弱。在大学参与的各类竞赛及创新研究中,运用过统计知识的地方主要集中在城乡调查(74.7%)和企业调查(77.8%)中,而其他创新研究及竞赛(如大学生科技创新计划、大学生“新苗人才”培养计划、课题研究、创业设计大赛等)中应用统计知识和方法的极少。由此需要大力度地提高学生运用统计知识分析和解决实际问题的能力。

三、统计教学满意度评价模型构建与分析

(一)教学目标与课程安排对统计教学满意度的影响因素分析

根据统计教学目标与课程安排所包含的项目评价得分构建多分有序probit模型分析其对《统计学》教学满意度的影响,orderedprobit模型拟合结果显示似然比LR为196.86,显著性水平小于0.01,表明模型具有显著性意义;同时输出教学目标与课程安排对统计教学满意度的影响结果如表1所示。

表1显示,在10%的显著性水平下,教学目标、专业融合、理论课时以及实验课时因素对于统计教学满意度具有显著影响。可见,清晰的教学目标,能够让学生明确这门课的内容和要求,了解该课程的应用情况;理论课时与实验课时的合理分配,能够让学生将所学到的理论知识与实践相结合,当这些满意度提高时,能增加统计教学满意状况提高的概率,且教学目标的明确性对教学满意度的影响最大,从系数来看它的提升对教学满意度等级的提高效应最为明显。而专业针对性前系数较小且不显著,说明它对教学满意度状况的提升影响相对较弱。

(二)教学内容、方法和手段对统计教学满意度的影响因素分析

教学内容、方法和手段是影响教学满意度的重要因素,根据所包含的项目评价得分构建多分有序probit模型分析其对统计教学满意度的影响,似然比LR为263.55,显著性水平小于0.01,表明模型具有显著性意义。各因素影响结果如表2所示。

表2显示,在10%的显著性水平下,教学内容、课程内容、教学媒体、实验教学方式以及实践训练的满意情况会影响统计教学满意度。从结果来看,这些影响因素的系数符号与数值大小与实际相符。评价一门课的重要指标就是这门课的教材内容,因此该模型下其前的估计系数最大;此外,当课程内容具体丰富、有实例、教学媒体效果良好时,学生更有兴趣学习这门课程,从而在一定程度上增加《统计学》教学满意状况提高的概率。统计与生活息息相关,好的实验教学方式与实践训练能够培养学生将其所学到的统计知识应用到实际问题上,真正做到学以致用,这自然会增加他们对于统计学的好感。而教学内容、方法和手段中的其他因素的系数较小且不具有统计显著性,因此它们的提升对教学满意度的提升影响相对较弱。

(三)教学应用与效果评价对统计教学满意度的影响因素分析

理论知识和实际的结合应用是评价一门课程教学成效的直接因素,也是课程教学满意度的重要评价尺度。根据教学应用与效果评价所包含的项目评价得分构建多分有序probit模型分析其对统计教学满意度的影响,似然比LR的值为222.51,显著性水平小于0.01,表明模型具有显著意义;各因素影响结果如表3所示。

表3显示,在10%的显著性水平下,影响统计教学满意度的因素有教师讲授技巧、教师实践教学能力、创新能力培养、统计软件应用以及课程考核方式。

现实中,老师的讲授技巧和实践教学能力,在很大程度上影响学生该课程的兴趣、学生听课状态以及吸收知识的情况等。面对枯燥乏味的讲课,学生可能对这门课产生厌倦甚至是反感,更可能造成他们的高缺勤率。如今的社会越来越重视创新,当然学生也希望能够提高自身的创新能力,因此创新能力对于教学满意度的评定情况具有正影响,且影响较大。此外,课程考核方式也会影响学生的满意程度,学习认真,统计学知识掌握较好的同学可能会希望通过一定的闭卷考核方式来证明自己的实力,而对统计学略知一二的学生可能更倾向于开卷的考核方式,因此他们对于考核方式的满意度也是影响因素之一。而教师理论水平以及学评教评价方式前系数较小且不显著,说明其对教学满意度的提升影响相对较弱。

四、结论与建议

(一)结论分析

调查结果表明,当前经管类专业学生对于《统计学》课程的总体满意度不够高,统计教学仍存在许多不容忽视的问题:

1.课程设置与本专业目标的符合度较高、实用性较强,但专业针对性不够。

2.《统计学》教材结合案例不够、缺乏趣味、注重数学公式推导且忽略统计软件应用。

3.教学内容与相关专业融合不够,内容过于机械化;统计教学方式则多为灌输式教学,互动式等教学方法应用不足。

4.大部分同学对当前采用的纯粹理论考核方式表示不满意,而更倾向于实践测评。

5.一半以上的学生认为统计调查方案设计、问卷设计以及统计调查方法对以后的学习和工作有帮助;70%以上的学生在城乡调查、企业调查和专业调查中能运用统计调查和统计整理方法,但对其他统计知识的应用极少。

从教学目标与课程安排的视角来看,教学目标、专业融合、理论课时以及实验课时的设计对于统计教学满意度具有显著影响;在教学内容、方法和手段所包含的因素中,教学内容、课程内容、教学媒体、实验教学方式以及实践训练的满意情况会影响学生对于统计教学满意度;教师讲授技巧、教师实践教学能力、创新能力培养、统计软件应用以及课程考核方式等则是影响统计教学成效的重要因素。

(二)对策建议

1.统计教学内容的调整和创新。统计教学应避免把时间放在讲授抽象理论、数学定理等方面,增加趣味性教学内容和案例分析,并根据专业需要调整相应的教学内容,增强统计教学的专业契合度,注重培养“应用型”人才。

2.教学方法和手段的转变。调查结果表明,教学方法和手段上最突出的问题为灌输式教育,互动教学不足,所以即由“灌输式”转变为“互导式”教学。在统计教学中,既要发挥教师的主导作用,又要充分调动学生的积极性和主动性,给学生留下充分的思考时间。将知识的传授与能力的培养有机结合起来。

同时,运用统计案例教学,培养学生运用统计思维的基本思想分析、解决问题的实际能力。通过课程案例学,可激发学生的学习兴趣,增强学生对理论知识的理解。重视课程实验教学,提高学生的基本统计业务操作技能和基本统计分析技能。

3.优化考核内容及方式。基于教学内容与教学方式等改革成效的督促,考核方式及评分标准应随之进行匹配,将考核方式由记忆性的闭卷笔试改为多样化的着重考查学生对所学统计知识的应用能力考核,以考查学生分析问题和解决问题的能力。因此,考核方式应采用综合考核的形式,根据学生参与教学活动的程度、期末项目研究报告、上机操作和实践成绩等综合评定其学习成效。

4.构建统计实践教学平台,提升统计实践应用价值。依托学校实验中心建成全校大学生基础实验设备平台、统计建模演示与实现平台、统计调查方案设计大赛仿真模拟等平台,为统计的创新研究和实践应用提供更有力的保障。

参考文献:

[1]吴喜之.统计学:从数据到结论[m].第3版.北京:中国统计出版社,2009.

[2]曾五一,肖红叶,庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2010,(2).

[3]袁卫,刘超.统计学教材建设的问题与思考[J].统计研究,2011,(9).

统计学的分类方法篇8

关键词:聚类分析;量化管理;多维变量;pmS系统

中图分类号:F323文献标识码:a

文章编号:1009-2374 (2010)27-0128-02

俗话说:物以类聚,分类是人们认识世界的基础。在日常工作、生活以及社会经济等各种现象中,存在着大量分类研究的问题。假如您属于市场体系,需要研究上海市手机通讯市场的分布规律,这就要针对上海各个区域市场总量状况、不同手机款式、不同销售量、不同消费人群等大量数据进行整理后,最终得到关于手机市场的分类。另外在生活中也不乏需要进行变量聚类的实例,比如高校可以运用系统聚类法中的最短距离法,按学生的思想品德、学习成绩、身心健康三项指标将学生分成四类,即优、良、中、一般,从而为学生管理工作者根据分类结果对不同类型的学生实施有针对性的管理提供科学依据。

1方法简介

传统的分类方法起源很早,但利用统计数学和计算机对复杂对象进行定量分类的方法仅有约三十年的历史。过去人们主要靠经验和专业知识进行定性分类处理,致使许多分类带有主观性和任意性,不能很好地提示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题。为了克服定性分类的不足,引入统计数学后形成了数值分类法。

数值分类一般有两种情况:一是已知研究对象的分类情况,需将某些未知个体正确地归属于其中某一类,这称为有师分类或判别分析(Discriminantanalysis);二是研究对象不存在事前分类的情况,而将数据进行结构性分类,是一种无师分类或称聚类分析。

聚类分析是研究“物以类聚”的一种多元统计分析方法。其基本思想是根据对象间的相关程度进行类别的聚合,在进行聚类分析前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。聚类分析的结果是使得同一类中的个体有较大的相似性,而不同类中的个体差异很大。

文中介绍聚类分析中最重要的系统聚类法,其过程是:聚类开始时,样本中的各个样品(或变量)自成一类;通过计算样品间的相似性,把其中最相似的两个样品进行合并,合并后,类的数目就减少一个;重新计算类与类之间的相似性,再选择其中最相似的两类进行合并,……,这种计算、合并的过程重复进行,直至所有的样品归为一类。

根据分类对象的不同可把聚类分析分为样品聚类(Q型聚类)和变量聚类(R型聚类)。本文属于样品聚类,就是对样本单位的观测量或特征进行聚类。不同的分析目的,需要选用不同的指标(变量)作为分类的依据。

2聚类分析的三个步骤

2.1数据变换处理

分析过程中,需要对各个原始数据进行一些相互比较运算,但由于计量单位的不同会对数据值造成影响,因此首先进行原始数据的变换处理。

2.2计算聚类统计量

聚类统计量是根据变换以后的数据计算得到的一个新数据。它用于表明各样品或变量间的关系密切程度,最常用的统计量有距离和相似系数两种。

2.3选择聚类方法

根据聚类统计量,运用一定的聚类方法,将关系密切的样品或变量聚为一类,将关系不密切的样品或变量加以区分。选择聚类方法是聚类分析最终、也是最重要的一步。

3分析步骤和推导过程

3.1原始数据收集

全部来自pmS系统,收集了某部门的八个项目在2010-1-1~2010-4-20期间数据:

项目名称项目人数

(人)实际工作量

(小时)剩余工作量总任务数

(个)已经完成任务数按时完成任务数延期完成任务数提前完成任务数

x1x2x3x4x5x6x7x8

项目a880.002893.3890000

项目B16657.003958.08121010

项目C2310890.00-246.1684503857

项目D255605.503141.82935430717

项目e236951.50-1481.2346161033

项目F211652.00-45.461812561

项目G101426.40879.20248143

项目H19928.00103.7590000

3.2数据变换

采用最常用的标准化变换方法,即将原始数据转换为标准Z分数(Zscore)。

计算公式为:Xij'=,其中表示样本均值,Sj表示样本标准差。

为简化起见,不再详述过程数据。当使用minitab软件计算时,只要输入原始数据,通过软件设置,也能自动产生最终结果。但实际操作中希望能关注每一步中间数据,这样最终会对分析和解决问题起到重要作用。

3.3计算聚类统计量

采用最常用的欧氏距离(euclideandistance)来研究样品或变量疏密程度。其中距离含义是:把每个单位看成是p维(本文是8维)空间的一个点,在p维坐标系中计算的点与点之间的某种距离。

第i个样品与第k个样品之间的欧氏距离为:

3.4选择聚类方法

采用目前应用最广泛的系统聚类法。首先将每个样品各自看成一类,选择距离最小的两类合并成一新类,然后计算该新类与其他类之间的距离,再将距离最小的两类进行合并,如此继续,直到所有的样品都聚为一类为止。在计算类与类之间的距离时,采用最短距离法(nearestneighbor)首先合并最近的或最相似的两类,用两类间最近点间的距离代表两类间的距离。最终计算得到数据结果如下:

numberof

observationswithinclustersum

ofsquaresaveragedistancefromcentroidmaximumdistance

fromcentroid

Cluster1618.16351.691262.39638

Cluster210.00000.000000.00000

Cluster310.00000.000000.00000

从图中可以最终得到,根据pmS中项目数据,将8个项目分成了三类情况。

第二类只有项目组C,它和别的项目区别很大。结合原始数据,在3.6月内项目C共通过pmS下达了10890小时工作量,人均每月132小时工作量,基本符合22×8=176小时的标准月工作时要求;同时从任务数、计划完成率、提前完成率等也能反应出,按照公司规范和量化管理的要求,项目C的计划管理水平和效果显著高于其它项目。建议是继续保持。

第三类只有项目D,整体做的较好,建议是改进完善。

第一类是剩下的6个项目,其中项目a、B、i每月人均下达了不足15小时工作量。这6个项目整体从pmS上看,近期未有效采用pmS进行工作计划和员工任务的下达和管理。通过访谈也发现,整个项目计划管理活动在开始制定时还比较规范,但后期由于进度等原因,项目大多使用邮件和口头方式进行正式的任务和计划管理。建议是立即整改。

4总结

通过使用聚类分析法,对管理工作中的多维变量问题进行了科学的计算和分析。最终得到分类情况,对实现工作中的量化管理和科学决策有着非常好的帮助作用。

参考文献

[1]刘映池,张毅.运用系统聚类法对高校学生进行分类[J].教育与教学研究,2009,23(9).

[2]李伟,王黎勇,等.运用系统聚类法综合评价农村社区卫生服务中心功能[J].中国医院统计,2006,13(3).

统计学的分类方法篇9

【关键词】经济管理类;统计学专业;教学体系;改革创新

一、经济管理类统计学专业教学体系的改革和创新的必要性

众所周知,在1998年教育部对分属数学下和经济学下的统计学专业进行合并,并统一放理学下,同时又对该专业可授的学位进行了规定,理学学位和经济学学位均可。在这一新的发展形势下,原来设在财经院校的经济管理类统计学专业是否开展,如何开展,对这一专业培养的人才目标是否有变化,课程教学体系如何设置这些问题都需要高校急需解决。根据研究对象的不同,统计学可以为分为理论统计学和应用统计学。理论统计学的主要研究对象是抽象的随机变量,主要从事对一般的数据进行收集、整理和分析方法的归类和总结;而应用统计学的研究对象主要是各个不同领域的具体数量,主要服务于各个领域进行定量分析。所谓统计学的应用性包括一般统计方法的应用和各自领域实质性科学理论知识的应用,而经济统计学只是它应用性的一个领域。对于经济管理类的统计学来说,应该根据经济管理类学科的特点去设置课程教学体系和社会人才培养目标,从而满足社会发展需求。对于社会发展来说,统计学专业培养的人才不仅要具备丰富的理论知识,还要熟练掌握理论方法和现代计算手段,只有这样,才能更好地为社会主义市场经济的发展服务。因此,实现统计学专业教学体系的改革和创新势在必行,顺应时展的潮流。

二、经济管理类统计学专业教学体系中存在的问题和不足

在当前的经济管理类统计学专业教学中普遍存在一些问题,严重影响了教学质量,为社会培养的人才无法满足社会发展需求。我们主要从以下几个方面对经济管理类统计学专业教学中存在的问题进行具体阐述。

(一)学生对统计学的重视程度不够,畏难情绪较强

由于统计学课程理论性太强,涉及到的概念、含义、公示比较繁多复杂,如果学生不做足够的课外练习很难真正的理解和掌握。在具体的学习过程中,很多学生觉得统计学理论太多,学生学习兴趣低、从心理上害怕,再加上经济管理类文科学生较多,数学功底比较差,对学好统计学缺乏足够的信心。还有很多学生从思想上不重视统计学,加上课堂上理论知识比较枯燥,这些都是导致统计学学科教学质量不高的直接原因。

(二)学习内容增加,成绩考核方式不合理

从1998年教育部对分属数学下和经济学下的统计学专业进行合并以后,大多数老师在具体的教学过程中,除了保留社会经济学的原理,还增加了部分统计推断的内容,并增加了经济管理类相关具体应用的实际案例。这一变化使得统计学内容的实用性更强,同时激发了学生的学习兴趣,但是学习压力也越来越大。经济管理类统计学课程的考核方式多采取闭卷考试,学生的最终成绩主要由平时成绩和期末考试成绩组成。平时成绩主要包括学生出勤率、课堂提问问题和课堂作业和阶段测试,而期末考试内容更加注重对基本知识点的测试,却忽视了考查统计方法和实际应用能力。这种考核方式缺乏科学性和合理性。

(三)对实践和实验缺乏评估,与其他学科之间的联系系统性不够

统计学科中实践、实验在整个教学中是必不可少的组成部分,它是考核学生掌握理论知识和技能的重要手段。各高校根据专业的不同特点,建立了各自的专业实践和实验教学平台,虽然一定程度上满足了学生实践能力培养的需要,但是这类教学模式的评估和考核不太完善。在统计学的教学过程中,教师会进行实际应用举例,很多案例和相关专业的结合度不够,相互课程之间的渗透能力比较薄弱,联系系统性不够,不能让学生真正体会到统计学在各自专业中的实际应用。

三、统计学专业教学体系进行改革和创新的具体措施

由上文可知,经济管理类专业教学体系中存在一些问题和不足,为了满足社会发展的需求,必须进行改革和创新。我们主要从以下几个方面进行具体介绍。

(一)教师可以采用案例式教学,实现教学手段的多样性

教师通过采取案例引入开展理论知识的学习,简化统计学的数学模型,更加方便学生理解;同时,教师通过实例让学生更加直观的学习统计方法,不仅可以激发学生的学习兴趣,培养学生的创新思维,更可以加强学生对办公软件的应用能力,让学生学到的知识能够学有所用。教师也还可以采取启发式教学、双向互动式教学,实现教育教学体系的立体化和多元化,以课堂理论方法为基础,加强实践能力的训练,亩提高学生的动手能力和创新能力。

(二)完善统计学教材,提高考核方式的合理性

教师在具体的教学中应该不断完善统计学教材,更加注重对统计方法的介绍和实际应用,以理论知识为基础,突出教材的科学性和实用性,同时,适当地介绍一些统计常用到的一些软件,让学生动手搜集资料,让学生体会做教师的心理,进一步培养学生的动手能力和实际应用能力。考核方式应该更加重视对统计方法和实际应用能力的考核,可以采用多层级综合评价学生成绩的方式。不仅要通过闭卷考试考核课本的理论知识,还可以通过讨论、答辩、撰写调查报告的方式考核学生的实际应用能力和技术能力。

(三)加强对实践试验的评估,在其他学科中融入经济管理数学模型思想

教师应该不断建立和完善一套实践试验教学评估体系,可以采取督促、评比和奖罚的方法深入落实实践教学体系的改革措施。相关的教师必须严格执行实践试验教学大纲,并注意加大监督强度,更好地提高教学水平。同时,从学生的专业特色和课程数量出发,在教学过程中实现专业课程和统计学的经济管理模型思想的有机结合,激发学生学习统计学的积极性和主动性,提高学习效率。

总而言之,统计学教师只有不断的改进教学方法,更新教学方式,才能更好地完成统计教学对于人才的培养目标,更好地促进社会经济的发展。

参考文献:

[1]熊俊顺.我国统计学高等教育与学科建设若干问题研究[J].统计研究,2001(04)

统计学的分类方法篇10

关键词:机器学习;支持向量机;故障诊断

Doi:10.16640/ki.37-1222/t.2016.10.219

1机器学习的分类

目前机车故障智能诊断方法一般依赖机器学习,所谓机器学习是指:从样本数据中发现规律,然后利用所得规律预测未来数据和无法直接获得的数据。机器学致分为三类:(1)参数统计估计方法。包括模式识别、神经网络等,它们都基于传统统计学。此方法有较大局限性,主要是要求已知样本的分布形式,还需要数量极大的样本。在实际中,能获得的样本数是有限的,因此这类方法的使用效果不佳;(2)经验非线性方法。这类方法能够利用已知样本建立非线性模型,从而消除参数统计估计方法的一些不足。不过,这类方法没有统一的数学理论作为支撑;(3)统计学习理论。是一种专门针对小样本的机器学习理论,为解决小样本统计问题提供了一种新的选择。统计推理规则既考虑到渐近性能指标,又兼顾利用有限信息获得最优结果。统计学习理论的理论基础较为扎实而完备,为有限样本学习问题提供了一个有效解决方案。在此基础上,支持向量机作为一种新的学习方法迅速发展起来,已展示出许多优越性,是机器学习领域中的一个研究热点。

2支持向量机方法的分析与研究

支持向量机方法的主要理论依据是VC维理论和结构风险最小原理,根据有限的样本信息追求最好的推广能力。目前,SVm算法广泛应用于模式识别、回归估计、概率密度函数估计等方面。

2.1支持向量机方法的主要优点有

(1)专门针对有限样本。能利用有限信息,寻求最优解,不苛求大样本;

(2)本质是一个二次型寻优问题。从理论上说,它得到的是全局最优点,克服了一些方法存在的局部最优问题;

(3)通过非线性变换转换,能将待解问题转化到高维特征空间,然后构造线性判别函数间接解决原空间中的非线性判别问题。同时,它较好地解决了维数灾难难题,算法的复杂度与样本维数无关。

2.2SVm的故障分类原理

(1)支持向量机的二值分类。对于两类问题,支持向量机寻找一个超平面将两类样本完全分开,从而完成样本的分类。图1展示了两类的分类超平面情况,图中的圆点、方点分别代表两类不同样本,红圆点与蓝色方点是支持向量,H平面是两类样本的分类超平面。

若两类样本集可分,将它们表示为:,其中y表示样本类别标号。不妨假设存在一个超平面wx+b=0可使得:

wx+b≥+1yi=+1

wx+b≤-1yi=-1

即表示训练样本集线性可分。假设存在两个超平面分别是:H1:wx+b=1H2:wx+b=-1,那么两个超平面与原点的距离分别为

和。那么两个超平面的距离,是分类间隔,因此求间隔最

大的实质是求最小。进一步考虑到VC维的上界最小要求最小,综合考虑之后,问题转化为如下二次规划问题:

约束yi((wxi)+b)≥1,i=1,2,…,n

关于线性不可分问题,处理的思路是:先选用合适的映射函数,将低维空间的原始数据映射至高维空间,再进行线性分类,最后返回到原空间,完成分类。

考虑到可能存在少数样本被错误分类,引入松弛变量,将优化问题改进为:

新的约束条件:yi(wΦ(xi)+b)≥1-ζi,i=1,2…,nζi≥0

(2)线性规划支持向量机的二次分类。二值分类、回归算法把问题最终归结为求解二次规划,此法存在计算参数随训练样本的增加而急剧增加的缺点。解决该问题可采用线性规划方法。

设、,两个超平面间的距离为

引入松弛变量,目标函数修正为:

(3)多类分类问题。SVm可解决两类分类问题,可视为一个两类分类器。两类分类器无法直接解决多类分类问题。签于此,很多学者提出了多种多类分类算法,主要分为两类:①在基本两类分类器基础上直接构造多类分类器。此种方法表面简单、易懂,但是计算涉及过多参数、计算难度较大,分类精度也不高,应用效果不太理想。②采用多个两类分类器依次串联,组成一个多类分类器,多类分类逐步转化为两类分类。实际中一般采用此办法解决多类分类问题。多个两类分类器解决多类分类问题的方案有三种:一对一分类、一对多分类和决策树分类。

参考文献:

[1]顾彬,郑关胜,王建东.增量和减量式标准支持向量机的分析[J].软件学报,2013(07).