首页范文统计学分布特征十篇统计学分布特征十篇

统计学分布特征十篇

发布时间:2024-04-29 12:31:22

统计学分布特征篇1

关键词特征函数独立性指数分布卡方分布

1特征函数的定义

设是一个随机变量,称,为的特征函数。因为,所以总是存在的,即任一随机变量的特征函数总是存在的。特征函数只依赖于随机变量的分布,分布相同则特征函数也相同,所以常称为某分布的特征函数。

2特征函数的应用

2.1指数分布的数学期望和方差

已知随机变量服从参数的指数分布,随机变量的特征函数,,由此可得,。

用特征函数求指数分布的数学期望和方差,要比从定义计算反常积分简便不少。

2.2利用特征函数方法证明泊松定理

证:设随机变量,则随机变量的特征函数为,又,所以

而是参数为的泊松分布的特征函数,又有特征函数的唯一性可知结论成立。

2.3在求独立随机变量和的分布上的应用

设是个相互独立的随机变量,且均服从标准正态(0,1)分布的正态随机变量,求随机变量由于,根据随机变量数学期望的计算公式可得相应随机变量的特征函数为

由特征函数的性质可得随机变量的特征函数为。

有概率论知识可知这是的特征函数可以看出卡方分布是伽马分布的特例,通过特征函数的算法结果更直观,也更能揭示本质。同样地,我们可以按照以上推导方法,可以得到正态分布二项分布,泊松分布和伽马分布也具有可加性,利用特征函数就要方便得多,而且对多个随机变量的和可直接讨论。

2.4证明分布函数的弱收敛性

设随机变量服从参数为%Z,%d的伽马分布,当时,随机变量按分布收敛于标准正态分布。即.

证:设的特征函数为,两边取对数,,并将展开为级数形式,

所以,而正是标准正态分布的特征函数,由特征函数的唯一性可得:。

在求独立随机变量和的分布上的应用,利用独立随机变量和的特征函数为特征函数的乘积性质的推广,往往能使问题得到简化。

参考文献

[1]茆诗松,程依明,等.概率论与数理统计教程(第二版)[m].北京:高等教育出版社.2011.

[2]浙江大学.盛骤等概率论与数理统计(第四版)[m].北京:高等教育出版社.2008.

统计学分布特征篇2

统计学在非统计学的各专业应用非常广泛。它不仅是数学工作者研究现实世界复杂问题的基本科研手段,也是其他各行各业工作者们研究各自领域工作的重要方法。要保证学生们通过对概率统计课程的专业学习后,能够对各类问题正确地选择并使用统计方法。实际上在很多时候同学们通过学习或借鉴文献中的做法都可以正确地选择统计方法,但是在接下来的具体处理过程中就会犯下错误,即没能正确理解并使用该统计方法。而犯上述错误的真正根源在于学生没用熟练掌握概率的相关基本知识点。

实际上,统计方法在应用于具体问题的时候,需要许多环节,其中最重要的是需要学生动手来推算该具体问题中涉及到的分布密度――特别是联合密度、边际密度与条件密度,演算方法应用中的变量变换及相应的分布密度,计算变量的数字特征,这些都是统计方法应用的基本环节,如果计算推演这一环节没有经过扎实地训练,那么在这一环节上经常会出错,统计结论就可能是错的。

上面的错误归结起来并不是同学的统计学没有学好,而是他(她)的概率论基本训练没有到位,因此有必要突出强调应用统计类课程所需要的重要知识点,在讲授概率基础课程时候加以特别强化训练。最重要的知识点主要有:

1.列出基于已知分布密度推导各种特殊数据类型的广义概率密度的相应方法。在实践中最常用的数据类型主要有:一元连续型、多元连续型(常见且基本),一元离散型、多元离散型(常见且基本),同时具有离散型与连续型分量的多元数据(常见但不基本),右删失数据(工程与生物领域常见但不基本)、左截断数据(不常用又不基本),具有缺失分量的多元数据(常见但不基本),都可以给出相应的方法求广义概率密度。

2.概率基本公式应用与条件分布的演算。教会学生正确地写出三大概率基本公式所需的各个要素,特别是关于条件概率及其密度的演算。重中之重有两处:一是会求离散变量关于连续变量的广义条件密度(十分常用),二是会利用广义条件密度及广义边际密度求离散变量与连续变量的广义联合密度(十分常用)。

3.计算条件期望、条件方差等条件化的数字特征(包括期望、方差、协方差、矩母函数、特征函数、概率母函数等),以及数值特征之间的相互关系。这些计算都是以计算条件分布为基础的,要让学生知道条件分布密度也可以对应到类似于数学期望等数字特征,在该场合下即被叫做条件数字特征;要让同学们知道这些数学期望、方差等与绝对数字特征的区别,不要在计算时混淆。

统计学分布特征篇3

关键词:院林业资源数据曰分布式特征曰多尺度特征曰海量特征

林业资源数据是一种重要的自然资源系统袁是自然资源的重要组成部分袁与之相应的林业业务更是社会资源系统不可分离的重要组成部分遥因此,具有很强的社会性尧资源性尧自然性尧开发性等性质袁使林业资源数据具有分布式特征尧多尺度特征尧海量特征等遥

1分布式特征分析

1.1数据形成过程的分布式特征林业资源的时空特征与演变过程是林业资源数据的重要描述内容袁详细描述了林业资源的空间尧时间及属性三方面的分布情况以及异同遥林业资源在开发之前袁需要进行资源定位尧时间及属性的判断袁然后进行相应的数据采集袁之后才将采集而来的数据袁记录到林业资源数据系统中进行专业的数据分析袁最后形成使用价值高的林业资源数据资料袁因采集数据进行空间分布尧时间分布与属性分布袁突显林业资源数据的分布式特征遥1.2数据采集过程我国林业部门根据性质不同可以分为林区行政管理和集体林区林业行政管理袁其中林区行政管理包括国家林业局尧省林业总局尧林业管理局等曰集体林区林业行政管理包括国家林业局尧省渊自治区尧直辖市冤林业厅渊局冤尧旗县渊区冤林业局等袁这意味着不同级别地区的林业管理方式不同袁相应的林业资源数据采集也呈分布式采集法袁故数据采集过程具有明显的分布式特征[1]遥1.3数据组织管理过程中分布式特征因为不同级别地区的林业资源数据收集方法不同尧空间资源属性不同及时间分布不同袁使林业资源数据组织管理难度增加袁为降低数据组织管理难度袁需要各级林业管理部门根据不同时间尧不同空间以及不同属性特征袁制定具有针对性的数据组织管理方案遥所以袁林业资源数据组织管理过程具有显著的分布式特征遥1.4数据处理分析过程中的分布式特征林业资源数据的分析处理需要使用云计算和大数据理论实现袁并且要求计算过程要具备高性能袁以此满足用户的林业数据服务需求遥但因林业的区域分布性尧时间分布性及属性差异性等特点袁使对林业资源进行资源数据处理和分析时,不得不将采集而来的数据进行分组处理分析袁即将林业资源数据分割成多个数据块袁形成分布式存储袁并且每组分布储存都存在与之相应的计算节点袁然后由计算节点将资源数据进行存储和计算袁不但有利于数据访问效率的提高袁还有利于服务部署效率的提高袁增加了任务执行优势尧节点迁移优势和失效处理优势等遥

2多尺度特征分析

2.1空间多尺度特征抽象性与综合性是林业资源数据本身的实质性特征袁也可以理解为资源数据抽象化与资源数据整合化的过程袁而资源数据抽象化与整合化是根据不同时间尧不同空间和不同属性执行的袁所以袁可以将同种林业资源的空间划分为不同规模的数据板块袁实现不同林业资源的不同空间分布层次袁凸显出林业资源数据的空间多尺度特征遥2.2时间多尺度特征林业资源是一种自然资源袁形成过程具有很强的周期性袁不同林业资源的形成周期不同袁相应的资源监测要素尧数据表达形式及资源数据变化也随之不同袁充分证实了数据监测要素尧数据表达及数据变化都与林业资源的周期有着密切的关系遥使林业资源周期成为林业资源数据的时间尺度袁与林业资源空间尺度形成正相关关系袁即林业时间尺度越大越多袁则林业资源空间尺度就越大越多袁导致不同区域的林业资源数据呈现不同时间分辨率袁使林业资源动态变化具有明显的区域性尧多层次性袁所以袁林业资源数据具有时间尺度特征[2]遥2.3语义多尺度特征在林业资源数据系统中袁语义实质上是指分辨率遥通常情况下袁林业资源数据中的语义具有两种分辨率袁即集合性的语义分辨率和聚合性的语义分辨率遥语义的分辨率是通过详细的语义尺度刻画出来的袁所以,林业资源的实体及数据收集过程的语义也可以使用语义尺度进行刻画袁凸显出语义尺度的层次性和连通性袁故林业资源数据具有语义多尺度特征遥

3海量特征分析

3.1传统意义下的海量特征传统的数据系统在分析时使用的是二维技术袁凸显的是数据二维性特征袁使处理出来的林业资源数据内容都是以矢量地图尧栅格数据尧遥感影像和Dem传感器数据等二维时空数据袁也有少量的三维数据袁具有海量特性袁能够使林业资源数据从tB级上升到pB级遥例如袁根据相关研究及调查显示袁我国荒漠化尧石漠化土等土地资源袁其查阅量平均每周逸600万条袁资源数据存储量逸猿t曰湿地资源的查阅量平均每期逸70万条袁资源数据存储量逸1t曰野生动植物资源的查阅量平均每期逸50万条袁资源数据存储量逸2t曰我国林业局政府网的资源数据信息平均每年逸缘万条遥此外袁还有全国的林火监测资源数据尧静态资源数据尧火场视频数据量等的与点击量袁其量与点击量都是非常之多袁充分体现林业资源数据的海量特征[3]遥3.2大数据环境下的海量特征大数据时代下袁物联网尧互联网尧3S等高科技信息技术都得到了迅速发展与运用袁在很大程度上增加了林业资源的数据来源遥随着信息技术的不断开发袁近几年又增加了多媒体信息服务系统尧地理位置服务数据系统尧短报文数据系统等数据新来源渠道遥有效增加了林业资源数据空间分布尧时间尺度尧时效性尧数据量及处理速度等袁最终致使林业资源数据量的大幅度增加袁突显大数据时代下林业资源数据的海量特征遥

4结语

总而言之袁深度了解林业资源数据特征是进一步了解尧开发和应用林业资源数据的重要环节遥结果得出袁林业资源数据的分布式特征体现在数据形成尧数据采集尧数据组织管理和数据处理分析四方面曰多尺度特征体现在空间多尺度尧时间多尺度和语义多尺度三方面曰海量特征体现在传统意义下的海量和大数据环境下的海量两方面遥

参考文献院

[1]孙伟,马志波,曹姗姗,等.林业资源数据特征分析[J].西北林学院学报,2014渊06冤:200-206+233.

[2]冯仲科,姚山,刘永霞,等.从林业信息数据采集到森林知识获取[J].北京林业大学学报,2007渊S2冤:1-7.

统计学分布特征篇4

关键词:步态识别;特征关系;特征表述;主成分分析;最近邻分类器

中图分类号:tp391.4;tp301.6文献标志码:a

newfeaturedescriptionbasedonfeaturerelationshipsforgaitrecognition

XianGJun,DaBangyou,LianGJuan,HoUJianhua*

(

Collegeofelectronicinformationengineering,SouthCentralUniversityfornationalities,wuhanHubei430074,China

)

abstract:

inordertocarryonthegaitrecognitionfastandefficiently,anewfeaturerelationshipbasedfeaturerepresentationwasproposedinthispaper,whichutilizednonstationarityinthedistributionoffeaturerelationships.Firstly,relativedirectionbetweentwoadjacentedgepixelsin8neighborhoodregionwaslabeledasoneoftheattributescharacterizingrelationship,anddistancefromedgepixeltoshapecentroidpointastheotherattribute.Jointprobabilityfunctionofthetwoattributeswasestimatedbynormalizedhistogramofobservedvalues.Secondly,principalComponentanalysis(pCa)wasadoptedforfeaturereduction.Finally,thenearestneighborclassifierwasadoptedforclassification.theexperimentalresultdemonstratesthattheproposedmethodwasusedtoCaSiagaitdatabase,andgotthebestrecognitionrateofmorethan90%.Featuredimensionoftheattributesjointprobabilitymatrixisreducedfrom900to240withrelativelylowercomputationalcost.

Keywords:

gaitrecognition;featurerelationship;featurerepresentation;principalComponentanalysis(pCa);nearestneighborclassifier

0引言

步态是指人行走过程中的体态姿势,近年来的自动步态识别方法大多是从图像序列中提取有效的特征。特征信息来源主要包括两方面,分别是基于形状信息的特征提取和基于动力学信息的特征提取。文献[1]证实动力学信息的波动性极大,不同的行走路面、不同的行走速度,甚至行走过程中是否携带物品,都会影响到所提取特征信息的有效性。因此,在基于步态的身份识别领域中,最有效的特征信息是形状信息。近几年涌现出大量基于形状信息的步态识别算法,如矩不变性质[2]、对称性分析[3]、正则分析[4]、procrustes形状分析[5]、时空轮廓分析[6]、马尔可夫模型[7]等。

另一方面,人们经过深入的研究,发现特征的统计特性更适合决策个体之间的一致性和差异性,这种基于统计特性的识别算法相对于模板匹配的识别算法而言,在噪声和图像信息非一致性方面的鲁棒性更强,计算复杂度也较低。其中,特征直方图是一种常用的非参数统计特性分析法,具有简单易实现的特点,在统计识别领域得到了广泛的应用[8-9]。

基于步态轮廓时变的形状信息,利用特征关系非平稳分布的统计特性,本文提出了一种新的基于特征关系表述的步态识别算法。研究表明,人在行走过程中的步态姿势不断地发生改变,使2维图像各特征间对应的相互关系也随之改变,这种特征间对应关系在统计特性上呈现出的非平稳性分布不是随机的,它体现了步态序列的时空模式。通过提取特征间对应关系属性的直方图,就可得到特征关系的联合概率分布,经主成分分析(principalComponentanalysis,pCa)法训练得到低维特征表式的概率函数空间。原始概率函数映射为概率空间的一个点,某人的步态序列就对应概率空间的一条轨迹。本文正是运用特征间对应关系在统计模式上体现出非平稳性的分布特性,研究了一种新的基于8邻域相对方向标号的特征提取算法。其基本思想是:将剪影轮廓相邻像素点的8邻域相对方向标号作为一个关系属性,将轮廓边界点与中心点间的距离信号作为另一个关系属性,得到这两种属性的联合概率分布,以此表征时变的步态轮廓信息。

与传统特征描述方法的区别在于,本文不是独立地研究各特征属性,而是研究特征间对应关系的统计特性。这种基于关系的统计特性更能体现步态姿势随着时间变化的本质属性,不仅保留了单帧图像中行人步态剪影的外观信息,而且很好地融入了步态序列时变的动态特征,同时抑制了序列时变信号的非一致性问题。与传统运动分析算法中pCa不同,本文的特征训练域不再是图片像素域,而是在概率函数空间域中训练更紧致的函数特征表达式。文献[10]首次将特征关系的统计特性运用于步态识别,受该文献的启发,本文采用8邻域相对方向标号的特征关系提取,不但保留了有效的特征属性,并进一步将特征关系联合分布维数降低到30×8,在降低算法复杂度的同时,得到了一种较理想的步态识别算法。

1特征间对应关系

每幅静态图像都含有丰富的低级特征信息,比如图像中的边缘像素点、转角和直线信息等。然而所有的这些特征属性都是静态的。人们迫切需要得到一种高级的特征,这些高级特征不局限于图片的静态特性,应体现时变的动态特性。为此,Sarkar等[11]提出了基于特征关系表述的特征提取算法。将各特征间相互关系作为研究对象,而不是原始特征本身,研究各特征间关系属性的联合概率分布。

定义11)设F={f1,…,fn}表示一幅图像的n个特征的特征集。这些特征可以是上述提到的任何一种低级特征。2)Fk表示k个特征对应的关系集,即k维特征关系集。

统计学分布特征篇5

关键词:图像检索特征提取边缘检测

中图分类号:tp39文献标识码:a文章编号:1007-9416(2016)11-0049-01

1引言

随着多媒体技术及网络的迅速发展,我们的日常生活也发生了很大的变化,大家每天都会从四面八方收到各类信息,而其中收到最多的是图像类信息,并且这些信息都是没有任何规律可言的,如果不能完全读取与利用图像中的所有有效信息,就会给我们信息处理带来难度。这就要求有一种能够快速而且准确地查找访问图像的技术即图像检索技术。

图像检索技术经历了基于关键字检索技术、基于内容检索技术与基于区域检索技术三种方法[1]。其中基于关键字的检索,效率较低,得不到令人满意的检索结果;基于内容的图像检索方法是根据图像的颜色、纹理、形状等视觉上的特征进行信息提取,然后对提取到的这些特征矢量进行匹配。可图像的视觉内容不易识别。比如颜色为蓝白的海洋与天空两幅图像,如果用特征提取,则取得的结果是相似的,可内容是不同的;本文中基于区域图像检索技术是先对图像表示进行分割,对分割后区域中的特征来表示图像的内容,从而增强了图像对内容的识别与感知能力。

2特征提取

特征提取是图象处理中的一个初级运算,它是众多计算机图像分析算法的基点。特征的选取直接决定一个算法是否成功。

2.1颜色特征提取

一般颜色特征是基于像素点的特征,图像或图像区域中的所有像素都参与进来。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。其中颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,基缺点是没有表达出颜色空间分布的信息[2]。

在1976年,国际照明委员会推出了Cie1976LUV空间和Cie1976Lab空间两种均匀色标制,其中LUV是一种独立于设备的均匀颜色空间模型,它在人类的感官上分布相当一致,所以本文以LUV颜色空间进行分析。其中L代表亮度信息,U和V代表色度信息。在CieLUV空间里,两点的欧式距离表示了两点间的色度差异,其与CieXYZ颜色空间中的X,Y,Z值的转换公式如下:

其中Xn,Yn,Zn是标准白光的三个刺激值。它与RGB颜色空间的转换公式如下:

转换矩阵[a]决定于显示设备所采用的三种荧光粉的色度坐标和标准光源。基于区域的图像颜色特征选取对每一小块提取颜色特征,三个颜色特征分别是L,U,V三颜色在各块分布的一阶矩。

2.2纹理特征提取

一幅图像的纹理是在图像计算中经过量化的图像特征。图像纹理描述图像或其中小块区域的空间颜色分布和光强分布。纹理特征的优点是:具有旋转不变性,对于噪声有较强的抵抗能力;缺点是:当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差。纹理特征描述方法有统计法、模型法、结构法、信号处理法四种。[3]

(1)统计法是基于像元及其邻域的灰度属性,研究纹理区域中的统计特性,或像元及其邻域内的灰度的一阶、二阶或高阶统计特性。

(2)模型法是以某种参数控制的分布模型方式形成的,从纹理图像的实现来估计计算模型参数,以参数为特征或采用某种分类策略进行图像分割。比如马尔可夫随机场、子回归模型这两种基于随机场统计学的方法。这些模型是通过少量的参数表征来表示纹理。

(3)结构法是基于“纹理基元”分析纹理特征,着力找出纹理基元,认为纹理由许多纹理基元构成,不同类型的纹理基元、不同的方向及数目等,决定了纹理的表现形式。

(4)信号处理法是建立在时、频分析与多尺度分析基础之上,对纹理图像中的某个区域实行某种变换后,借助于频率特性来描述纹理特征,使用最多的有傅里叶功率谱法、塔式小波变换、树式小波变换、Gabor变换等方法。

2.3形状特征提取

形状特征是图像的重要视觉特征之一,图像的形状信息不随图像颜色、纹理、背影的变化而变化,具有平移旋转尺度不变性,是物体稳定的特征,因此可以利用形状特征,实现对形状特征比较明显的各类图像库的检索。现在用于图像检索的形状特征提取方法有两种,一种是区域特征,另一种是轮廓特征。

(1)基于形状区域的特征提取是以形状区域内的信息作为特征提取的一种基础算法,比较经典的有基于形状矩的算法与通用傅里叶描述符等。

(2)基于轮廓的形状特征提取首先提取形状的封闭轮廓,再对该轮廓进行等面积重采样。而后选择轮廓上的任意一点作为分割起点,将进行轮廓等点数间隔的分割。

3图像特征提取方法的比较

颜色特征提取方法的优点:颜色特征是一种全局特征,它描述了图像或图像区域所对应的景物的表面性质。对一幅图像中颜色的全局性的分布,它能简单描述出来,不同颜色的布局在整幅图像中所占到的比例,颜色特征很适合描述难以自动分割的图像,以及对不需要考虑图像中物体的空间位置的分布。其缺点:它无法对图像中产生的局部分布进行描述。[4]

图像纹理特征提取方法的优点:纹理通常定义为图像的某种局部性质。纹理特征是从纹理图像中计算出来一个值,它对纹理内部灰度级变化的特征进行量化。相比颜色特征提取不会因为局部的一些偏差而匹配失败。通常纹理特征与纹理的位置、走向、尺寸、形状有关。其缺点:当图像的像素分辨率变化明显时,得到的纹理特征偏差就会明显增大。

形状特征提取的优点:对图像中某个需要的部分来进行研究,图像目标的整体性把握良好。其缺点:若图像上的目标发生变形,则描述的稳定性会大大下降,同时由于形状特征也具有全局性,对其计算时间和存储所用的空间要求比较高。

4结语

图像特征提取方法由于具有较高的提取效率,所以得到了广泛的应用。目前图像特征提取技术得到了越来越多人的关注,但是仍存在不足和有待解决的问题,对经典方法的改进和提出更新的方法是目前研究者努力的方向。图像特征提取的每一种方法都各有优势,也有其不可克服的缺陷,一般在条件允许的情况下,使用多种提取方法同时应用同一特征的提取可以提高准确性。

参考文献

[1]孙即祥.图像处理[m].北京:科学出版社,2010.

[2]高美真,申艳梅.基于颜色直方图的图像检索技术[J].微电子学与计算机,2008(04).

统计学分布特征篇6

通讯作者:向良进

【摘要】目的通过对比分析淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的强化特征以及优势解剖分布,进而明确腹部淋巴结结核的Ct诊断要点。方法回顾性分析36例淋巴瘤和21例淋巴结结核累及腹腔和腹膜后淋巴结的临床资料,对受累淋巴结的优势解剖分布以及强化类型进行观察。结果环状强化:结核性淋巴结95.2%,淋巴瘤仅占16.7%;均匀强化:结核仅占4.8%,淋巴瘤80.6%;“多房样”征象:结核性淋巴结66.7%,淋巴瘤8.3%。上述特点两组间比较,差异均有统计学意义(p

【关键词】腹部淋巴结;结核;体层摄影术;X线计算机

在临床中,结核菌通常以消化道感染和血行播散的途径累及腹腔和腹膜后部的淋巴结[1]。本文主要对淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的强化特征进行了重点地对比分析,以更加有效地对临床腹部淋巴结结核做出明确的诊断。现将具体研究分析结果报告如下。

1资料与方法

1.1一般资料选取2005年3月~2010年7月笔者所在医院36例淋巴瘤(淋巴瘤组)和21例淋巴结结核累及腹腔和腹膜后淋巴结的患者(结核性淋巴结组)。21例结核性淋巴结组中,男12例,女9例,年龄为25~63岁,平均(43.1±5.3)岁,该组患者主要的临床症状及体征为腹痛、腹部的不适感;36例淋巴瘤组中,男21例,女15例,年龄为24~65岁,平均(40.1±1.3)岁。两组患者的一般情况比较差异无统计学意义(p>0.05),具有可比性。

1.2方法对两组患者的临床资料进行回顾性分析,并对受累淋巴结的形态、大小、密度、优势解剖分布以及强化类型进行观察。

1.3统计学方法应用统计学分析软件SpSS8.1对数据进行统计学分析,计数资料采取χ2检验,且以p

2结果

2.1淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的强化特征分布情况见表1。环状强化:结核性淋巴结95.2%,淋巴瘤仅占16.7%;均匀强化:结核仅占4.8%,淋巴瘤80.6%;“多房样”征象:结核性淋巴结66.7%,淋巴瘤8.3%。上述特点两组间比较,差异有统计学意义(p

表1淋巴瘤和结核累及腹部淋巴结的临床多层螺旋

Ct的强化特征分布情况[n(%)]

2.2结核性淋巴结(环状强化)以及淋巴瘤(结合均匀强化和受累指标)诊断的敏感性、特异性、准确性、阳性预测值和阴性预测值比较见表2。环状强化特征对于结核诊断的上述指标分别为94%,81.9%,86.3%,75%,95.7%;而结合均匀强化与腹主动脉下部周围淋巴结的受累指标对于淋巴瘤诊断的上述指标分别为81.9%,94%,86.3%,95.7%,75%。

2.3淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的优势解剖分布在淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的优势解剖分布方面,淋巴瘤和结核更多的累及到了肠系膜、肝十二指肠韧带、门腔间隙、肝胃韧带以及腹主动脉上部周围淋巴结。

表2结核性淋巴结组与淋巴瘤组的临床诊断敏感性、特异

性、准确性、阳性预测值和阴性预测值比较情况(%)

2.4患者腹部淋巴结结核Ct影像学见图1、图2。

3讨论

在临床病理中,结核菌可以通过消化道感染以及血行播散的途径而累及腹腔和腹膜后部的淋巴结。淋巴瘤可以分为非霍奇金淋巴瘤(nHL)以及霍奇金淋巴瘤(HL)两大类,通常可以累及到腹腔和腹膜后的淋巴结。近些年以来,国内外的学者通过对比分析淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的强化特征以及优势解剖分布,对两者的临床Ct影像学表现进行了鉴别[2~5]。

本文通过对比分析淋巴瘤和结核累及腹部淋巴结的临床多层螺旋Ct的强化特征以及优势解剖分布得出,淋巴瘤和淋巴结结核累及腹腔和腹膜后淋巴结的临床多层螺旋Ct的强化特征以及优势解剖分布具有显著性差异,临床可以据此对腹部淋巴结结核做出更加明确的诊断。

参考文献

[1]方华盛,马隆佰.腹部病理性淋巴结的Ct诊断现状.中国临床新医学,2010,(15):236-237.

[2]杨志刚,李媛,闵鹏秋,等.血行播散型与非血行播散型结核累及腹部淋巴结的Ct强化表现及其解剖、病理基础.中国医学影像技术,2010,(1):70-72.

[3]杨志刚,闵鹏秋,何之彦,等.腹腔和腹膜后间隙结核的Ct表现及其病理基础.中华放射学杂志,2009,8(25):168-169.

[4]吴宁,刘瑛,陈宇,等.国人非霍奇金淋巴瘤侵犯腹部和盆腔淋巴结的Ct表现.中华放射学杂志,2007,7(19):15-17.

统计学分布特征篇7

一、以人均收入水平指标为例对统计稳健性的思考

在现实生活中,公众很有可能对官方公布的人均可支配收入或人均工资之类的指标数据不以为然,认为这些指标具有偏高的倾向。抛开统计误差和统计口径的影响,对人均指标产生歧义的主要原因在于收入分配是一种偏态的分布,随着影响贫富差异的因素增多,偏态呈日益严重的态势。同时收入分布中存在着异常极端的离群值,也会导致收入平均值的不正常上升。

平均数,特别是算术平均数是我们在各种媒体上经常看到和听到的经济条件指标,对其观察值的代表性研究一般是用以方差为主的若干类指标。然而均值和方差应用的条件则往往被人们所忽视,典型的表现就是不考虑观察值本身具有何种分布形态分布的偏斜程度以及观察值中是否存在一定量的离群值。

就数据的纯度量特征而言,若收入数据中存在着百万甚至亿万收入的富翁时,会极大地拉动人均收入的上升。这表明用算术平均方法计算的人均收入指标受到离群值的较大干扰,这种影响有时甚至会抵销掉其他绝大多数数据对均值的影响。在这种情况下,算术平均值并不是一个好的统计指标。相反,对于人均收入之类位置特征值而言,若以中位收入代替算术人均收入,则会对极值的干扰有较大的抗御性。就收入分布而言,中位收入较之算术平均收入是一个具有抗离群值干扰能力的稳健统计量。

人均收入水平的统计指标,除了可以用可支配总收入除以平均人数的方法得到以外,更多的情况下,是通过官方统计系统城调队的1000户问卷调查产生的,并据此来推断总体的人均指标。相应的统计量和检验值的解释都是建立在正态分布的假定之下的。因此人们往往认为只要正态分布的假定得到满足或基本满足就可以大胆使用人均收入指标,而不必再担心它的稳健性,因而可使用很多方法来检验收入分布是否为正态。

若没有关于总体分布精确的先验信息时,则只要样本容量n足够大,就可以认为样本分布是总体分布的自然逼近,但是当n很小时,是无法判断分布的正态性的。对于收入分布这样一种人的经济标志的分布而言,1000个样本单位并不能从实际上表明它具有一个足够大的样本容量。相反,对于人类身体、体重之类的自然特征指标,一般均可以直接假定它的分布正态性。这也表明人的经济特性分布较之人的自然特征分布更加复杂,而收入分布就是其中的一个典型。收入分布中存在的一定数量的离群值,虽然占数据个数总量的比例并不高,但是对算术人均收入的影响非常大,如通常所说的20%的高收入人群拥有80%的收入总量。人们试图通过正态分布拟合检验的办法来考察离群值对正态性的影响,问题在于有些正态性的检验结果对少量离群值对正态性造成的偏差,无法得到恰当的结论(例如利福斯正态性检验方法)。因而收入数据中的离群值对于基于正态假定下才有用的统计量会产生破坏性的影响。

收入分布的复杂性及很难确认的状况,使得传统的人均收入指标局限性凸现,用它来描述和推断收入水平,以及制定相应收入政策、就业政策和税收政策就显得不是很全面,有时甚至会得出错误的结论。因此寻求稳健统计方法和计算稳健统计量,对于收入分布来讲是非常重要的。

稳健统计量是相对于传统统计量而言的,两者是在比较中发展起来的。传统统计量往往侧重的是统计量的一系列计算程序。而稳健统计则将对统计量代表性的讨论,放在对数据分析特征的认识基础之上。稳健统计量首先强调对分布特征的探索,然后才是统计量的计算过程问题。就人均收入指标而言,若不明了收入分布的特征,则人均收入指标的解释力就会大大降低甚至起到负作用。

二、稳健统计的基本思想

在高斯发现/正态分布0以及最小二乘法提出之时,就有了/统计稳健性0的思想萌芽。正态分布下的各种统计量,包括均值、众数等均有较好的估计量特征,尤其是在对称分布下这些特征表现得更加充分,即使在稍有偏态的对称分布中,这些统计量也具有一定的抗御离群值的能力。应用得非常广泛的最小二乘估计量在和正态分布的前提结合的时候,也具有很多众所周知的优良性质。

正态分布假定下各种参数估计和假设检验的方法,诸如以样本均值估计总体期望值,以样本方差估计总体方差,检验统计量在原假设成立时服从正态分布的检验规则建立等等,都是优良的估计量和估计方法,无偏性、有效性和一致性等高效率性无论怎样论证都会得到理想的结论。正态分布下各种统计方法得以快速发展。

但是从对经济、社会、管理以及自然科学中各种现象的实际问题和数据分析中发现,正态分布的基本假定有时不能满足,或者即使是一个正态分布,但是否是理想化的正态分布也是值得怀疑的,人们往往发现很多数据分布是非正态和非对称的。有些统计专家甚至建议,正态分布可能不会代表大多数的分布形态,最好以其发明者的姓氏命名为高斯分布,与其他分布在名称上同等待遇。对很多数据分布形态的研究也发现,正态分布是一种理论上的分布,实际上数据至多是近似的正态分布,具体表现为适度偏斜的正态分布,而这种偏斜的程度可能会对估计量的稳健性产生致命的影响。如果某种统计方法对偏高正态假定的分布十分敏感,则就不是稳健的统计方法。

对稳健统计问题较早进行理论探讨的是t分布的发明者戈赛特等人。研究发现,若正态分布假定在实践中不能被满足,那么在正态分布基础上建立起来的估计和推断方法的价值就值得怀疑并能导致错误结论的发生。如果放宽对总体分布的正态性假定,则可用中位数等统计量来对总体的分布进行描述或者推断。这也使得不规定总体分布函数确切形式的非参数方法有了一定的应用空间。对非参数方法的应用招致批评,主要是基于当总体近似正态分布时,非参数方法没有有效利用有关分布的先验信息,因而方法的效率不高。但是当总体分布为近似正态时,常规的正态方法仍然有可能导致估计量不能达到最优,甚至不会达到近似最优。

在加拿大官方统计中,有三项商务方面的调查运用统计稳健的方法整理有关经济指标的多元数据,以发现和处理离群值数据。这三项调查分别是制造业月度调查(mSm)、批发和零售贸易五年度调查(p13)、工作场所和职业工作调查(weS)。多元统计分析中稳健统计方法的应用,主要是位置向量和协方差矩阵的稳健估计。对于具有离群值数据的统计资料,使用稳健统计方法估计相应的位置参数向量和离散参数矩阵,以缓轻和限制多元变量下离群值的不利影响。

缓解现有估计量的缺陷和改善传统估计方法的目的在于,使统计量具有更强的抗御离群值干扰的能力。

通过采用模拟研究方法能够达到改进估计量稳定性的目的。一个包含有4100个单位、涉及到四种社会类型的总体,被用来产生模拟的制造业月度调查的随机样本。被研究总体源于两个不同的数据分布形式,第一个分布是含有两个变量(产出量和原材料消耗量)的多无正态分布;第二个分布是一个被污染的分布产生这个分布中具有和第一个分布相同的算术平均数,但是变异指标方差是第一个分布的九倍(由Hulliget提出的一种污染分布的类型)。从这个含两种不同分布组成的总体中模拟产生了10000个样本容量为100的随机样本,并应用加权的方法和以前采用传统方法识别离群值的结果进行全面比较。

作为实际应用的理论准备,在稳健统计方法形成的开发和研究中,除了切尾均值、中位数等较好的稳健统计估计量以外,还相继提出了一类位置参数的稳健估计量方法(例如位置m估计量),在多参数回归模型的估计方面也拓展了稳健性回归方法,在离散特征的估计方法中提出了稳健的离散特征值估计量等等。除了稳健估计量之外,稳健平滑线、稳健拟合线的思想和统计方法也受到统计专家的重视。除了稳健统计量主要受极端离群大值和极端离群小值的影响之外,数据分布的中间段部分或其中的任意部分存在跳跃性较大的局部离群值,都会对平均平滑线和方程拟和线产生影响。例如当遇上离群值数据时,传统的一般平滑技术实际上得到的是/非平滑0效果,因此也开发出一些稳健平滑和稳健拟合的技术。良好的统计稳健性应能允许模型的假设和实际情况有一定的偏差,对数据中的离群值有较高的抗干扰性,以及当总体是由多种类型分布组合成复合分布时,都有较好的性能。

三、稳健统计的几点启示

1.重视统计量的系统化公布和有效解释。官方统计应该更加重视统计量的系统化分布,同时对相应数据分布特征的信息描述应予以有效的解释。例如收入分布的位置特征值可以考虑给出算术平均收入、中位收入等多种信息,同时辅以劳伦茨曲线、基尼系数、分段均值等统计量,详细阐述收入的分布特征。在可能的条件下,对收入全部观察值中划定一定的比例,作为离群值予以专门的处理和分析。人均收入指标的统计稳健性应将着眼点主要放在数据的主体部分。

2.加强对统计指标中各种统计量的比较研究。近年来国际统计学界提出了比较统计学的概念,它不仅是对各种统计思想和统计流派及统计制度进行比较,还着重对各种数据体系、统计分布、统计估计方法和统计量进行比较。其中较有实用价值和直观效果的比较研究,当属对传统统计量和稳健性统计量异同的比较。在收入分布的研究中,可以先按全部观察值给出统计量,然后删除离群值后给出切尾统计量。据此我们可以分析统计量在多大的程度上分别反映了数据的主体部分和个别极端部分,以及两部分数据的相互关系,同时可以观察分析的偏态。对统计量比较分析的意义还在于能使统计指标的使用者和分析者都能更好地理解数据的分布特征,以及为什么要使用稳健的统计量。

3.对经济指标的统计稳健性和统计敏感性的权衡。统计的稳健性实际上是要求统计量对离群值之类的数据具有不强的敏感性,因此它采取剔除离群值的方法,来达到统计稳健性的目的,或者是以离群值的位置,而不是以其具体数据来达到此目的。但是统计稳健的获得较之传统的经典统计量而言,要忍受观察值的一定信息量的损失,这也使得稳健统计量带来了一些缺憾。实际上这关系到对统计量稳健性和敏感性之间的权衡,因为统计量除了要谋求稳健之外,对一定程度敏感性的谋求也应是统计量优良性的标准之一。例如数据中的离群值出现,可以反映经济指标中的一些动向和新的经济亮点,可能昭示着某种趋势的到来。若统计量对此全然不顾,不能敏感地反映这种变化,则会使统计量走向另一个极端。观察值位置上分布的不均匀,使得中位数之类的稳健统计量也发生了波动,为了谋求进一步的改进,产生了复合统计量的方法。例如可由对第一、第二和第三分位数简均后得出稳健统计量,其特征在于稳健统计量不是一步求出来的,而是在不断改善和逼近的多次迭代过程中产生的。因此不仅增强了统计量的稳健性,也使统计量对观察值的抽象性加强。

统计学分布特征篇8

关键词:肾综合征出血热流行特征分析

中图分类号:R373文献标识码:a文章编号:1672-3791(2014)07(c)-0191-02

肾综合征出血热是秦皇岛市重点防制的以鼠类为主要传染源的自然疫源性疾病,为加强对肾综合征出血热的防制,本研究收集秦皇岛市2005―2008年的肾综合征出血热疫情资料,进行流行病学特征分析,现将结果报告如下。

1材料与方法

疫情资料主要来自2005―2008年疾病预防控制信息系统的秦皇岛疫情。

对收集到的2005―2008年秦皇岛市的肾综合征出血热人间疫情数据用描述流行病学方法对人群分布、时间分布和地区分布进行流行病学分析。

2结果

2.12005―2008年秦皇岛市各县区肾综合征出血热逐年发病情况

从秦皇岛市各县区近4年来肾综合征出血热逐年发病数的分布情况看,从各县区4年累计病例来看,总发病数在100例以上的县区有5个,占全市总发病数(1490例)的97.85%,其各县区病例构成分别为:青龙38.32%、抚宁24.03%、卢龙14.03%、海港区12.21%、昌黎9.26%。从全市各县区逐年发病数看,整体呈逐年下降的趋势(见图1);其中2008年发病68例,为近4年最低,较最高年份2005年(759例)下降了91.04%。

2.22005―2008年全市各县区肾综合征出血热逐月发病情况

从全市各县区近4年来肾综合征出血热逐月发病数的分布情况可以看出,2005年和2006年呈现明显的“双峰”型特点,疫情高峰分布在3~6月和12月至翌年2月,春峰明显高于冬峰,高峰期的3~5月的发病数占全年发病数的10.00%以上,其中4月份发病数占全年发病数最高占19.51%。2007和2008年,随着肾综合征出血热疫情的下降,冬峰和春峰两个发病高峰期的流行强度均处于较低水平(见图2)。

2.32005―2008年全市肾综合征出血热年龄分布

经统计,近4年来秦皇岛市发生的1490例肾综合征出血热病例中,

2.42005―2008年全市肾综合征出血热性别分布

4年来,全市肾综合征出血热发病男性显著高于女性,年发病比例为1.83∶1~2.52∶1。年度统计结果表明,女性发病比例为28.37%~35.29%,但2007年和2008年,其每年发病比例不及总发病例数的1/9(10.48%、5.47%)。

2.52005―2008年全市肾综合征出血热职业分布

从肾综合征出血热发病人群的职业构成来看,各种职业人群均可患病,但主要发病人群是农民,其发病构成在54.41%~73.63%之间,其次发病较多的还有工人和学生等。(见表2)

3讨论

肾综合征出血热是由汉坦病毒引起的人类自然疫源性急性传染病,其流行广泛,严重危害着人类的健康和生命。通过对秦皇岛市2005―2008年肾综合征出血热发病情况分析。其特点是发病季节性明显,呈双峰型,发病高峰期在春季,3~6月份为高峰;男性患病较女性多,发病年龄以青壮年为主,职业以农民患病多,与全国的肾综合征出血热监测资料一致[1~2],其原因与男性青壮年农民接触鼠类的机会多有关。发病呈具有既分散又相对集中地区分布,符合我国肾综合征出血热发病规律[3]。徐红梅报道肾综合征出血热发病与鼠情逐月消涨有关,重点防制肾综合征出血热发病的措施是灭鼠[4]。从肾综合征出血热疫苗的预防接种效果来看,单价疫苗在疫区类型单一且明确的地区具有明显的预防效果[5]。2008年秦皇岛市是奥运会的协助城市之一,政府为降低秦皇岛市肾综合征出血热的发病率,于2006―2007年之间对城市、农村进行了灭鼠活动和对3个高发县的重点人群进行了肾综合征出血热疫苗免疫接种工作,其中抚宁县、卢龙和青龙县重点人群接种率分别为73.39%,74.19%和75.57%。使秦皇岛市的2007年和2008年的肾综合征出血热发病人数明显减低,在法定传染病报告排序由2005年的第3位,到2008年降到13位。病例数由2005年的759例,到2008年的68例,下降了91.04%。因此,采取有效的消灭鼠措施,并对重点人群接种肾综合征出血热疫苗提高人群免疫力,两者相结合,是更好地控制疫情的措施。

参考文献

[1]陈化新,王钊,汤双振.中国流行性肾综合征出血热监测研究[m].北京:科学技术出版社,1992:294-309.

[2]陈化新,罗成旺.肾综合征肾综合征出血热监测及疫苗应用研究[m].香港:香港医药出版社,200:7-163.

[3]罗成旺,陈化新.中国1998―2007年肾综合征肾综合征出血热流行病学特征及疫苗接种策略探讨[J].中华流行病学杂志,2008,29(10):1017-1019.

统计学分布特征篇9

关键词 地铁车辆,空调通风,系统特征图

分析研究和解决地铁交通的环境控制和车辆空气调节是发展地铁交通的重要课题之一,这不仅关系到乘客的舒适性和安全性,而且直接影响地铁工程的建设费用。但是对地铁车辆的通风系统设计研究表明,各种方案的选择往往需要较长时间。本文借用运筹学中的一种网络技术即特征图来对比通风方案的优劣。

1 特征图的基本原理

特征图作为一种网络技术是运筹学的一个重要分支。只要能形成系统,能用图g(e,v,σ)表示的,均可用特征图表示[1]。g代表对应通风系统的网络图,v是图g的节点集合,v={v1,v2,?,vm},其中m为节点的个数;e是网络中所有分支的集合,e={e1,e2,?,en},其中n为分支的数目;σ是节点vi与边ej之间的连接关系。风网特征图也叫压能图、平衡图,就是通风网路中的每一条边用矩形框来表示,并按一定的关联关系排列在图上;在同一比例下,矩形块的宽等于该边的风量,高等于该边的风压,矩形面积等于该边的通风消耗的功耗。

1.1 基本关联矩阵与节点线a[2]

风网的基本关联矩阵是表示节点之间的邻接关系,用a(g)=(aij)(m-1)×n形式表示节点与边之间的连接关系。aij=1,当(vi,vk)=ej∈e;aij=-1,当(vk,vi)=ej∈e;aij=0,其它。由基本关联矩阵能做出节点线a,与节点线相邻的上、下各块的风量满足流量平衡定律,即节点线相邻的上块风量之和等于下块风量之和。

1.2 基本回路矩阵与回路线b

基本回路矩阵是表示风网中回路与边之间的关系,用矩阵b=(bij)(n-m+1)×n表示。bij=1,ej在回路i上,且方向相同;bij=-1,ej在回路i上,且方向相反;bij=0,其它。与回路线b相邻的左、右两侧各块的阻力满足能量平衡定律。即回路线相邻的左侧各块的阻力之和等于右侧各块阻力之和。

1.3 独立半割集矩阵与半割集线s

传统的风量平衡定律认为,对通风网路在任一时刻其任一节点的风量代数和等于0。而广义的风量平衡定律指通风网络在任一时刻其任一割集的风量代数和也为0。由半割集线s相割的各块风量之和等于该系统的总风量,这是广义上的流量平衡。独立半割集矩阵s=(sij)(m-1)×n,sij=1,ej在半割集i上;sij=0,其它。

1.4 独立通路矩阵与通路线p

传统的风压平衡定律认为,通风回路中的任一回路其风压的代数和为0。广义的风压平衡认为通风网路中任意两条有向通路的风压相等。由通路线

p相割的各块阻力之和等于该系统的总阻力,这是广义上的能量平衡。独立通路矩阵p=(pij)(n-m+2)×n,pij=1,ej在通路i上;pij=0,其它。

1.5 风网特征图的表示

把风管的布置图看作是风网络的一个分支,则通风设计方案就可以表示成相对应的系统特征图。应用系统特征图对通风风管进行分析可以看出各个方案的设计性能。通风网络图中的每条边分别对应特征图中的相应序号的矩形块,矩形块的排列

学术专论

是按边的连接关系排序的。矩形块的宽等于该边的风量,高等于该边的风压,矩形面积等于该边的通风消耗的功率。见图1。

图1 风网特征图表示

2 地铁车辆的通风方案

地铁车辆内经过处理的送风和回风都必须通过风道才能进入空调区域;而且空调区域的送、回风量能否达到设计要求,则完全取决于风道系统的压力分布以及风机在该系统中的平衡工作点。所以风道设计将直接影响空调区域气流组织和空调效果。同时,空气在风道内流动所损失的能量,是靠风机消耗电能予以补偿的,所以风道的设计也直接影响空调系统的经济性。因此,风道系统的设计,是在满足设计风量等要求的前提下,尽可能节省能量。如何从系统的整体性来考虑,使通风系统的整体性能达到最优,是选择通风方案的首要考虑的问题。在对某地铁车辆通风方案的设计过程中,经过对各种设计方案的反复比较与分析,确定下来3种可选用的通风设计方案[3]。

2.1 方案1

全车(以带司机室为例)以空调器置于车内,送风口布置及风道系统布置图见图2(注:系统图中10部分管道是指带司机室车的风道布置,其尺寸为0.1m×0.2m,而无司机室车的风道布置则没有该部分)。每两相邻风口中心线距离为2.35m,司机室送风量为54m3/h。本文以带司机室车为例,按负荷计算的总送风量为9878m3/h、每车选2台空调器计算,则每台空调器送风量计为v=4939m3/h。方案1风道阻力计算列于表1,风道阻力计算用风系统单线图与系统特征图见图2。特征图中的虚线表示通风系统的最大阻力线,图中矩形块的数字与单线图中的数字对应。

图2 方案1系统的单线图和特征图

表1 方案1风道阻力计算数据表

2.2 方案2口布置及风道系统布置图与系统特征图见图3,风道阻力计算列于表2。

表2 方案2风道阻力计算数据表

图3 方案2系统的单线图和特征图

2.3 方案3风口布置及风道系统布置图与系统特征图见图4,

风道阻力计算列于表3。全车(以带司机室为例)以空调器顶置于车内,

图4 方案3系统的单线图和特征图具有静压箱作用的主风道,测得各部分阻力分配均

2.4 实际通风方案的比较匀。方案2实际上是方案1的一种变型,也充分利

根据试验测定报告[3],方案1充分考虑利用地用有限空间,设置了具有静压箱作用的主风道,各铁车辆内的有限空间,系统布置比较流畅,设置了部分阻力分配较为均匀;但由于主风道中存在一个较大的弯头,增大了风道系统的阻力,与方案1相比系统的阻力大一些。方案3没有设置主风道,没有充分利用空间来布置风道,各部分阻力分配不均匀,测得噪声较大。因此,最后选择方案1作为最佳的设计方案。

表3 方案3风道阻力计算数据表

3 系统特征图的应用

利用通路线,从特征图中得出方案3的最大阻力为266pa,远大于方案1的最大阻力值148pa与方案2的最大阻力值160pa。

利用节点线,比较3种方案的流量平衡。从特征图中得出方案1与方案2各个部分的支流流量的分配相对于方案3的支流流量分配更加均匀合理。

利用回路线,比较3种方案的压力平衡。从特征图中得出方案3各部分之间的最大压力差值为119pa,大于方案1各部分之间最大压力差值21pa与方案2各部分之间的最大压力差值34pa。

此外,还可计算3种方案的通风功耗。根据前述的原理,总功耗等于特征图中各个方块的面积之和,由此可得方案1的总功耗为177w,方案2的总功耗为179w,方案3的总功耗为255w。从节省能量的角度考虑,方案1为最佳。

这样,从最大阻力、流量平衡、压力平衡以及通风总功耗出发分析得出,方案1与方案2的综合性能好于方案3。用上述同样的办法,分析出方案1比方案2的性能好。由此在这3个方案中选择方案1,与试验测定报告得到的结论一致。

本文借用系统特征图的概念与方法,对地铁车辆的通风系统方案的选择进行了分析,得到令人满意的结论,并与实际测试报告的结果完全吻合。文中所提出的方法考虑了通风系统的综合性能,具有一定的参考价值,该方法也能运用到其它的空调通风设计中。

参 考 文 献

1 徐瑞龙.用于地下通风系统管理的系统特征图.暖通空调,2000,(5):80~82

统计学分布特征篇10

光学成像系统是一种最基本的光学信息处理系统,用于传递二维光学图像信息,当信源携带输入信息从光学成像系统传播到像面时,输出的图像信息质量取决于光学系统传递特性。通常评价光学系统成像质量的方法有星点法、分辨率法及光学传递函数法等。星点法指检验点光源经过光学系统后产生像斑,由于像差等导致像斑不规则,很难对像斑定量计算和测量,易把主观判断带入检验结果中;分辨率法虽能定量评价,但并不能对可分辨范围内的成像质量给予全面评价[1];光学传递函数评价方法[2]通过研究系统空间频率传递特性,考察光学系统传递过程中的变化,可以综合分析评价系统成像质量,但因计算空间频率较复杂等因素,仍有不足。为在实际工作中能根据光学成像系统输出的图像直接判定光学系统输出的信息量,使分析更加方便,本文提出一种新的评价方法,利用系统成像信息熵分析光学系统在不同像散下的信息传递能力,以此评价光学系统性能。通过分析信息熵定义及计算方式[3],计算点光源通过简单光学系统后在不同像散情况下成像的信息熵,发现其值变化趋势与光学传递函数评价光学系统像质方法的结果一致,表明信息熵可用于分析评价光学成像系统信息传递能力和光学系统性能。

1信息熵

1.1信息熵定義

信源指信息来源,一般以符号的形式发出信息。包含信息的符号通常具有随机性,当符号随机出现,常可用随机变量代表。

信源符号取值于集合:

每个输出符号常以等概率出现,即[pai=1n],所以获取的符号信息量与n有关,n越大,未收到该符号的不定性愈大,而后解除该不定性,意味着收获信息量较大[4-5]。考虑到概率[pai]在0~1时,为方便、直观地获得信息量大小,选用负对数进行定义,对于一个有n个等概率值的信源符号,规定信息量为:

其中,要求信息量i为非负值,所以对数底须大于1。

关于对数底的选取要求包括:①以2为底,单位为比特(BinaryDigit,bt),常用于实际工程;②以10为底,单位为Dit或哈特;③以e为底,单位为奈特(naturalUnit,nat),常用于理论推导。

单一信源发出单一消息包含的信息量是一个随机变量,发出的消息不同,则含有的信息量也不一样[6]。任何单一消息的信息量都代表不了整个信源包含的平均信息量,不能作为整个信源的信息测度,所以定义信息量的数学期望为信源平均信息量,定义为信息熵(简称熵)。

根据整个信源统计特性定义熵,从数学期望表征信源总体特性[7]。对于特定信源的熵只有一个。不同的信源因统计特性不同,其熵也不同。熵一般用符号H表示,对数以2为底,单位为比特。变量不确定性越大,熵越大。

1.2信息熵计算

图像也是信源符号的一种,对信源的推论可推及至图像信息熵[8]。图像信息熵是一种特征统计形式,描述图像信源的平均信息量[9]。为了能反映图像灰度分布的特征,选择图像的邻域灰度均值作为灰度分布的特征量,与图像的像素灰度组成特征二元组,记为(i,j)。其中i表示像素灰度值([0i255]),j表示邻域灰度均值([0i255])。

式(3)反映某像素位置上的灰度值与其周围像素灰度分布综合特征,其中f(i,j)为特征二元组(i,j)出现的频数,n是图像尺度,定义图像的信息熵为:

构造图像信息熵可以在图像包含信息量的前提下,突出反映图像像素位置灰度信息和像素邻域内灰度分布综合特征[10-11]。

2基于信息量的光学系统像散分析

2.1光学传递函数评价分析光学系统

光学系统可看成是线性不变的系统,物体经过光学系统传递后,其频率不发生改变,但是对比度下降,相位发生推移,并在某一频率处截止,即对比度为零[12]。对比度降低和相位推移随频率变化而变化,其函数关系被称为光学传递函数。用光学传递函数评价光学系统成像质量,是基于把物体看作由各种频率的光谱组成[13],也就是把物体的光场分布函数展开成傅里叶级数或傅里叶积分的形式。因为光学传递函数与光学系统的像差和光学系统衍射效果有关,所以可用于评价光学系统的成像质量[14-15]。

光学传递函数能反映光学系统对物体不同频率成分的传递能力。高频部分反映物体细节传递情况,中频部分反映物体层次传递情况,低频部分则反映物体轮廓传递情况,但是表明各种频率传递情况的则是调制传递函数(mtF)[16-17]。mtF表示各种不同频率正弦强度分布函数经光学系统成像后,其对比度(即振幅)衰减程度。理论上像点中心点亮度值等于调制传递函数曲线所围的面积[18-19],曲线所围面积越大,光学系统传递的信息量越多,光学系统成像质量越好,图像更清晰。

根据以上仿真结果可以看出,当空间频率很低时,mtF趋于1;当空间频率提高,mtF值逐渐下降,mtF曲线可以大致反映光学系统传递能力[20]。同时随着光学系统像散的增加,mtF所围面积变小,表明系统传递信息量变少,成像质量下降。mtF曲线大体可以反映光学系统成像质量,为了有更高效、精准的评价方法,提出一种新的用信息熵评价光学系统成像质量的方法。

2.2基于信息量的光学系统成像分析与计算

图像熵反映图像平均信息量的多少。可以通过计算图像邻域灰度均值计算得到图像二维熵,使其可以在图像包含信息量的前提下,突出反映图像像素位置灰度信息和像素邻域内灰度分布综合特征,因此可以通过信息熵的大小判断光学系统传递信息量的多少。

为了更好地对比,将点光源作为信源输入到一个简单的光学系统中,得到经过光学系统处理的图像,利用matlab软件读取图像中的数据,将该数据编程,求得每一个数据3*3邻域内的灰度均值,再与图像像素灰度组成特征二元组,代入公式(4)中,即可计算出图像的二维熵。结果如表1所示。