卷积神经网络的好处十篇

发布时间:2024-04-26 11:09:15

卷积神经网络的好处篇1

(江苏科技大学电子信息学院,江苏镇江212003)

摘要:在实际交通环境中,由于运动模糊、背景干扰、天气条件以及拍摄视角等因素,所采集的交通标志的图像质量往往不高,这就对交通标志自动识别的准确性、鲁棒性和实时性提出了很高的要求。针对这一情况,提出一种基于深层卷积神经网络的交通标志识别方法。该方法采用深层卷积神经网络的有监督学习模型,直接将采集的交通标志图像经二值化后作为输入,通过卷积和池采样的多层处理,来模拟人脑感知视觉信号的层次结构,自动地提取交通标志图像的特征,最后再利用一个全连接的网络实现交通标志的识别。实验结果表明,该方法利用卷积神经网络的深度学习能力,自动地提取交通标志的特征,避免了传统的人工特征提取,有效地提高了交通标志识别的效率,具有良好的泛化能力和适应范围。

关键词:交通标志;识别;卷积神经网络;深度学习

中图分类号:tn911.73?34;tp391.41文献标识码:a文章编号:1004?373X(2015)13?0101?06

收稿日期:2015?01?09

基金项目:国家自然科学基金面上项目(61371114)

0引言

随着智能汽车的发展,道路交通标志的自动识别[1?3]作为智能汽车的基本技术之一,受到人们的高度关注。道路交通标志识别主要包括两个基本环节:首先是交通标志的检测,包括交通标志的定位、提取及必要的预处理;其次是交通标志的识别,包括交通标志的特征提取和分类。

如今,交通标志的识别方法大多数都采用人工智能技术,主要有下述两类形式[4]。一种是采用“人工特征+机器学习”的识别方法,如基于浅层神经网络、支持向量机的特征识别等。在这种方法中,主要依靠先验知识,人工设计特征,机器学习模型仅负责特征的分类或识别,因此特征设计的好坏直接影响到整个系统性能的性能,而要发现一个好的特征,则依赖于研究人员对待解决的问题的深入理解。另一种形式是近几年发展起来的深度学习模型[5],如基于限制波尔兹曼机和基于自编码器的深度学习模型以及卷积神经网络等。在这种方法中,无需构造任何的人工特征,而是直接将图像的像素作为输入,通过构建含有多个隐层的机器学习模型,模拟人脑认知的多层结构,逐层地进行信息特征抽取,最终形成更具推广性和表达力的特征,从而提升识别的准确性。

卷积神经网络作为深度学习模型之一,是一种多层的监督学习神经网络,它利用一系列的卷积层、池化层以及一个全连接输出层构建一个多层的网络,来模仿人脑感知视觉信号的逐层处理机制,以实现视觉特征信号的自动提取与识别。本文将深层卷积神经网络应用于道路交通标志的识别,通过构建一个由二维卷积和池化处理交替组成的6层网络来逐层地提取交通标志图像的特征,所形成的特征矢量由一个全连接输出层来实现特征的分类和识别。实验中将加入高斯噪声、经过位移、缩放和旋转处理的交通标志图像以及实际道路采集交通标志图像分别构成训练集和测试集,实验结果表明,本文所采用的方法具有良好的识别率和鲁棒性。

1卷积神经网络的基本结构及原理

1.1深度学习

神经科学研究表明,哺乳动物大脑皮层对信号的处理没有一个显示的过程[5],而是通过信号在大脑皮层复杂的层次结构中的递进传播,逐层地对信号进行提取和表述,最终达到感知世界的目的。这些研究成果促进了深度学习这一新兴研究领域的迅速发展。

深度学习[4,6?7]的目的就是试图模仿人脑感知视觉信号的机制,通过构建含有多个隐层的多层网络来逐层地对信号特征进行新的提取和空间变换,以自动学习到更加有效的特征表述,最终实现视觉功能。目前深度学习已成功地应用到语音识别、图像识别和语言处理等领域。在不同学习框架下构建的深度学习结构是不同的,如卷积神经网络就是一种深度的监督学习下的机器学习模型。

1.2卷积神经网络的基本结构及原理

卷积神经网络受视觉系统的结构启发而产生,第一个卷积神经网络计算模型是在Fukushima的神经认知机中提出的[8],基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun等人在该思想的基础上,用误差梯度设计并训练卷积神经网络[9?10],在一些模式识别任务上得到优越的性能。

卷积神经网络本质上是一种有监督的深度学习算法,无需事先知道输入与输出之间精确的数学表达式,只要用已知的模式对卷积神经网络加以训练,就可以学习到输入与输出之间的一种多层的非线性关系,这是非深度学习算法不能做到的。卷积神经网络的基本结构是由一系列的卷积和池化层以及一个全连接的输出层组成,可以采用梯度下降法极小化误差函数对网络中的权值和阈值参数逐层反向调节,以得到网络权值和阈值的最优解,并可以通过增加迭代次数来提高网络训练的精度。

1.2.1前向传播

在卷积神经网络的前向传播中,输入的原始图像经过逐层的卷积和池化处理后,提取出若干特征子图并转换成一维特征矢量,最后由全连接的输出层进行分类识别。

在卷积层中,每个卷积层都可以表示为对前一层输入图像的二维卷积和非线性激励函数,其表达式可用式(1)表示:

式中:Yj表示输出层中第j个输出;Yl+1i是前一层(l+1层)

的输出特征(全连接的特征向量);n是输出特征向量的长度;wij表示输出层的权值,连接输入i和输出j;bj表示输出层第j个输出的阈值;f(?)是输出层的非线性

1.2.2反向传播

在反向传播过程中,卷积神经网络的训练方法采用类似于Bp神经网络的梯度最速下降法,即按极小化误差的方法反向传播调整权值和阈值。网络反向传播回来的误差是每个神经元的基的灵敏度[12],也就是误差对基的变化率,即导数。下面将分别求出输出层、池采样层和卷积层的神经元的灵敏度。

(1)输出层的灵敏度

对于误差函数式(6)来说,输出层神经元的灵敏度可表示为:

在前向传播过程中,得到网络的实际输出,进而求出实际输出与目标输出之间的误差;在反向传播过程中,利用误差反向传播,采用式(17)~式(20)来调整网络的权值和阈值,极小化误差;这样,前向传播和反向传播两个过程反复交替,直到达到收敛的要求为止。

2深层卷积神经网络的交通标志识别方法

2.1应用原理

交通标志是一种人为设计的具有特殊颜色(如红、黄、白、蓝、黑等)和特殊形状或图形的公共标志。我国的交通标志主要有警告、禁令、指示和指路等类型,一般采用颜色来区分不同的类型,用形状或图形来标示具体的信息。从交通标志设计的角度来看,属于不同类型(不同颜色)的交通标志在形状或图形上有较大的差异;属于相同类型(相同颜色)的标志中同类的指示信息标志在形状或图形上比较接近,如警告标志中的平面交叉路口标志等。因此,从机器视觉的角度来分析,同类型中同类指示信息的标志之间会比不同类型的标志之间更易引起识别错误。换句话说,相比于颜色,形状或图形是正确识别交通标志的关键因素。

因此,在应用卷积神经网络识别交通标志时,从提高算法效率和降低错误率综合考虑,将交通标志转换为灰度图像并作二值化处理后作为卷积神经网络的输入图像信息。图2给出了应用卷积神经网络识别交通标志的原理图。该网络采用了6层交替的卷积层和池采样层来逐层提取交通标志的特征,形成的特征矢量由一个全连接的输出层进行识别。图中:w1i(i=1,2,…,m1),w1(jj=1,2,…,m2),…,w1k(k=1,2,…,m(n?1))分别表示卷积层L1,L3,…,Ln-1的卷积核;input表示输入的交通标志图像;

pool表示每个池采样层的采样池;map表示逐层提取的特征子图;Y是最终的全连接输出。

交通标志识别的判别准则为:对于输入交通标志图像input,网络的输出矢量Y=[y1,y2,…,yC],有yj=max{y1,y2,…,yC},则input∈j,即判定输入的交通标志图像input为第j类交通标志。

2.2交通标志识别的基本步骤

深层神经网络识别交通标志主要包括交通标志的训练与识别,所以将交通标志识别归纳为以下4个步骤:(1)图像预处理:利用公式Gray=0.299R+0.587G+0.114B将彩色交通标志图像转换为灰度图像,再利用邻近插值法将交通标志图像规格化,最后利用最大类间方差将交通标志图像二值化。

(2)网络权值和阈值的初始化:利用随机分布函数将权值w初始化为-1~1之间的随机数;而将阈值b初始化为0。

(3)网络的训练:利用经过预处理的交通标志图像构成训练集,对卷积神经网络进行训练,通过网络前向传播和反向传播的反复交替处理,直到满足识别收敛条件或达到要求的训练次数为止。

(4)交通标志的识别:将实际采集的交通标志图像经过预处理后,送入训练好的卷积神经网络中进行交通标志特征的提取,然后通过一个全连接的网络进行特征分类与识别,得到识别结果。

3实验结果与分析

实验主要选取了我国道路交通标志的警告标志、指示标志和禁令标志三类中较常见的50幅图像。考虑到在实际道路中采集到的交通标志图像会含有噪声和出现几何失真以及背景干扰等现象,因此在构造网络训练集时,除了理想的交通标志以外,还增加了加入高斯噪声、经过位移、旋转和缩放处理和实际采集到的交通标志图像,因此最终的训练样本为72个。其中,加入的高斯噪声为均值为0,方差分别为0.1,0.2,0.3,图像的位移、旋转、缩放的参数分别随机的分布在±10,±5°,0.9~1.1的范围内。图3给出了训练集中的交通标志图像的示例。图4是在实际道路中采集的交通标志图像构成的测试集的示例。

在实验中构造了一个输入为48×48个神经元、输出为50个神经元的9层网络。网络的输入是像素为48×48的规格化的交通标志图像,输出对应于上述的50种交通标志的判别结果。网络的激活函数采用S型函数,如式(2)所示,其输出范围限制在0~1之间。

图6是交通标志的训练总误差en曲线。在训练开始的1500次,误差能迅速地下降,在迭代2000次以后是一个平稳的收敛过程,当迭代到10万次时,总误差en可以达到0.1882。

在交通标志的测试实验中,为了全面检验卷积神经网络的识别性能,分别针对理想的交通标志,加入高斯噪声、经过位移、旋转和比例缩放以及采集的交通标志图像进行实验,将以上测试样本分别送入到网络中识别,表2给出了测试实验结果。

综合分析上述实验结果,可以得到以下结论:(1)在卷积神经网络的训练学习过程中,整个网络的误差曲线快速平稳的下降,体现出卷积神经网络的训练学习具有良好的收敛性。

(2)经逐层卷积和池采样所提取的特征具有比例缩放和旋转不变性,因此对于旋转和比例缩放后的交通标志能达到100%的识别率。

(3)与传统的Bp网络识别方法[11]相比较,卷积神经网络能够达到更深的学习深度,即在交通标志识别时能够得到更高的所属类别概率(更接近于1),识别效果更好。

(4)卷积神经网络对实际采集的交通标志图像的识别率尚不能达到令人满意的结果,主要原因是实际道路中采集的交通标志图像中存在着较严重的背景干扰,解决的办法是增加实际采集的交通标志训练样本数,通过网络的深度学习,提高网络的识别率和鲁棒性。

4结论

本文将深层卷积神经网络应用于道路交通标志的识别,利用卷积神经网络的深层结构来模仿人脑感知视觉信号的机制,自动地提取交通标志图像的视觉特征并进行分类识别。实验表明,应用深层卷积神经网络识别交通标志取得了良好的识别效果。

在具体实现中,从我国交通标志的设计特点考虑,本文将经过预处理二值化的图像作为网络的输入,主要是利用了交通标志的形状信息,而基本略去了颜色信息,其优点是在保证识别率的基础上,可以简化网络的结构,降低网络的计算量。在实际道路交通标志识别中,将形状信息和颜色信息相结合,以进一步提高识别率和对道路环境的鲁棒性,是值得进一步研究的内容。

此外,本文的研究没有涉及到道路交通标志的动态检测,这也是今后可以进一步研究的内容。

参考文献

[1]刘平华,李建民,胡晓林,等.动态场景下的交通标识检测与识别研究进展[J].中国图象图形学报,2013,18(5):493?503.

[2]SaHaSK,DULaLCm,BHUiYanaa.neuralnetworkbasedsignrecognition[J].internationalJournalofComputerapplication,2012,50(10):35?41.

[3]StaLLKampJ,SCHLioSinGm,SaLmenaJ,etal.manvs.computer:benchmarkingmachinelearningalgorithmsfortraf?ficsignrecognition[J].neuralnetwork,2012,32(2):323?332.

[4]中国计算机学会.深度学习:推进人工智能梦想[eB/oL].[2013?06?10].http://ccg.org.cn.

[5]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175?184.

[6]FUKUSHimaK.neocognition:aself?organizingneuralnet?workmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition[J].BiologicalCybernetics,1980,36(4):193?202.

[7]LeCUnY,BottoUL,BenGioY,etal.Gradient?basedlearningappliedtodocumentrecognition[J].ieeeJournalandmagazines,1989,86(11):2278?2324.

[8]LeCUnY,BottoUL,BenGioY,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].neuralCompu?tation,1989,1(4):541?551.

[9]CiReSanD,meieRU,masciJ,etal.multi?columndeepneuralnetworkfortrafficsignclassification[J].neuralnet?works,2012,32(2):333?338.

[10]naGiJ,DUCateLLeF,CaRoD,etal.max?poolingcon?volutionneuralnetworkforvision?basedhandgesturerecogni?tion[C]//2011ieeeinternationalConferenceonSignalandimageprocessingapplication.KualaLumpur:ieee,2011,342?347.

[11]杨斐,王坤明,马欣,等.应用Bp神经网络分类器识别交通标志[J].计算机工程,2003,29(10):120?121.

[12]BUVRieJ.notesonconvolutionalneuralnetworks[eB/oL].[2006?11?12].http://cogprints.org/5869/.

[13]周开利,康耀红.神经网络模型及其matlab仿真设计[m].北京:清华大学出版社,2005.

[14]孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806?2810.

[15]刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014(7):1921?1930.

卷积神经网络的好处篇2

关键词:模式识别;神经网络;卷积;文字识别

中图分类号:tn711?34;tp391.4文献标识码:a文章编号:1004?373X(2014)20?0019?03

Largepatternonlinehandwritingcharacterrecognitionbasedonmulti?convolutionneuralnetwork

Geming?tao1,wanGXiao?li1,panLi?wu2

(1.SiaSinternationalSchool,ZhengzhouUniversity,Zhengzhou451150,China;

2.HenanUniversityofanimalHusbandryandeconomy,Zhengzhou450011,China)

abstract:onlinehandwritingcharacterrecognitionisanimportantfieldintheresearchofpatternrecognition.thetraditionalrecognitionmethodisbasedonthecommonconvolutionalneuralnetworks(Cnns)technology.ithasanefficientrecognitionrateforthesmallpatterncharactersetonlinehandwritingcharacters,buthaslowrecognitionrateforthelargepatterncharactersetrecognition.arecognitionmethodbasedonmulti?convolutionalneuralnetworks(mCnns)ispresentedinthispapertoovercomethesituationthatthepreviousmethodshavethelowrecognitionrateforlargepatterncharactersetandimprovetherecognitionrateforthelargepatternhandwritingcharactersetrecognition.thestochasticdiagonalLevenbert?marquardtmethodisusedinthesystemfortrainingoptimization.theexperimentalresultsshowthattheproposedmethodhastherecognitionrateof89%andhasagoodprospectforonlinehandwritingcharacterrecognitionforlargescalepattern.

Keywords:patternrecognition;neuralnetwork;convolution;characterrecognition

0引言

随着全球信息化的飞速发展和对自动化程度要求的不断提高,手写文字识别技术被广泛地应用到许多方面。特别是近几年拥有手写功能的手机、平板电脑等智能电子产品的普及,联机手写文字识别研究已经成为一个备受关注的主题。联机手写字符识别要求实时性较高,识别过程中要求特征空间的维数比较高,在进行特征样本训练时要求训练的数目很大,要匹配的特征值或特征对象比较多[1?2]。

卷积神经网络(Convolutionalneuralnetworks,Cnns)的优点在于图像的识别过程中对视觉模式的获得是直接从原始图像中获得的,所以在设计系统时图像的预处理工作很少,与一般神经网络相比是一种高效的识别方法。卷积神经网络在模式识别的一些领域具有很好的鲁棒性,如在识别有变化的模式和对几何变形的识别方面。利用卷积神经网络的手写识别方法具有如下一些优点:对于要检测的图像可以与事先制定网络拓扑结构之间有较高的匹配率;特征提取和模式分类同时进行;训练参数往往是系统计算量的重要参数,而卷积神经网络中利用权值共享技术,这样就可以大大降低该参数,在设计系统结构时使得结构变得更简单,从而使得整个系统具有更好的适应性[3?5]。

目前,人机交互系统的手写字符识别、汽车车牌号识别和信息安全中常用的人脸识别等领域都有卷积神经网络的成功应用。文献[6]用一个4层的卷积神经网络Lenet?5对mnist库进行识别实验,获得了98.4%的识别率,用2层的Bp网络的识别率[4,6]是87%。许多学者对卷积神经网络在联机手写文字识别方面做了多方位的研究。但是,这些成功的联机手写文字识别主要是针对小模式字符集,利用以往的这些方法对大规模模式分类的联机手写文字的识别依然有识别率不高的问题。本文介绍了卷积神经网络的基本概念和一种典型的卷积神经网络结构,给出了基于多重卷积神经网络的字符识别和词语识别模型。通过使用大字符集的Unipen数据库进行训练和测试,本文提出的方法在大模式联机手写识别上,取得了较高的识别速度和满意的识别率。

1卷积神经网络

文献[6?7]中详细地描述了卷积神经网络如何保证图像对位移、缩放、扭曲鲁棒性能。典型的手写字符卷积神经网络Lenet5的结构图如图1所示[6?7]。

图1典型的卷积神经网络结构

在图1中,输入层接收要识别32×32的手写字符图像,经过简单的大小归一化和图像灰度处理,之后的结果作为一个采样层的图像;然后用一个可学习核进行卷积操作,卷积结果经过激活函数的输出形成这一层的神经元,每个神经元与输入图像的一个5×5的邻域相连接,从而得到由6幅特征图组成的第一个隐层(C1层)。每个特征图有25个权值(如方向线段,端点、角点等),考虑到边界效果,得到的特征图的大小是28×28,小于输入图层[3?9]。卷积层的数学计算过程可表示为:

[xlj=fi∈mjxl-1j*kernellij+blj](1)

式中:[l]代表层数;kernel是卷积核;[mj]代表输入特征图的一个选择。每个输出图有一个偏置[b]。

每个卷积层的结果作为下一个次采样层的输入,次采样层的作用是对输入信息进行抽样操作。如果输入的特征图为n个,则经过次采样层后特征图的个数仍然为n,但是输出的特征图要变小(例如,各维变为原来的50%)。因此隐层S2是由6个大小为14×14的特征图组成的次采样层。次采样层计算公式可以用式(2)表示:

[xlj=fβl-1jdown(xl-1j)+blj](2)

式中down(・)表示次采样函数。次采样函数一般是对该层输入图像的一个n×n大小的区域求和,因此,输出图像的大小是输入图像大小的[1n]。每一个输出的特征图有自己的β和b。

类似的,C3层有16个10×10的特征图组成的卷积层,特征图的每个神经元与S2网络层的若干个特征图的5×5的邻域连接。网络层S4是由16个大小为5×5的特征图组成的次采样层。特征图的每个神经元与C3层的一个2×2大小的邻域相连接。网络层C5是由120个特征图组成的卷积层。每个神经元与S4网络层的所有特征图的5×5大小的邻域相连接。网络层F6,包括84个神经元,与网络层C5进行全连接。最后,输出层有10个神经元,是由径向基函数单元(RBF)组成,输出层的每个神经元对应一个字符类别。RBF单元的输出yi的计算方法如式(3)所示:

[yi=j(xj-wij)2](3)

很多研究人员通过对字符集作弹性训练,经测试发现在mniSt字符集上的识别率可以高达99%以上[6?7]。卷积神经网络的优势主要是对小模式集上,如对数字或26个英文字母组成的集合都有着较高的识别率。然而,对大模式集的识别仍然是一个挑战,因为设计一个优化的并足够大的单一网络是比较困难的,且训练时间也较长。因此,本文的目的旨在通过组合多个对某一字符集有高识别率的卷积神经网络,从而构成多重卷积神经网络,进而提高卷积神经网络对大模式集手写字符的识别率。

2多重卷积神经网络

2.1多重卷积神经网络字符识别

根据传统卷积神经网络的运算过程以及其在处理大模式集手写字符时存在的不足,本文提出一种多重卷积神经网络来改进传统的卷积神经网络模型,用多个拥有高识别率的小卷积神经网络组成一个多重卷积神经网络。每一重小卷积神经网络对某一具体字符集有较高的识别率,另外,单重卷积神经网络除了有一个正式的输出集之外,还产生一个未知的输出(即难以识别的字符),即如果一个输入字符没有被正确识别,它将被输出为一个未知字符,然后输入模式转到下一重卷积神经网络进行识别。最后,通过一个拼写检查模块进行判断,选择最好的结果输出。系统的流程如图2所示。

其中Cnn1是识别手写数字的卷积神经网络,Cnn2是识别手写小写英文字母的卷积神经网络,该模型具有极强的扩展性,可以添加多任意模式的卷积神经网络(如中文,日文等)。

图2多重卷积神经网络字符识别示意图

2.2随机对角Levenberg?marquardt训练方法

传统的结构比较简单、单一的卷积神经网络多采用基本的Backpropagation(Bp)规则训练网络,往往需要几百次迭代,网络的收敛速度较慢。本文采用LeCun博士提出的随机对角Levenberg?marquardt算法对网络作训练,该算法需要的迭代次数明显比基本的Bp算法少[4,9]。随机对角Levenberg?marquardt算法的公式为:

[ηki=ε?2e?w2ij+μ](4)

式中[ε]是全局的学习率,一般取初始值0.01,太大会使网络无法收敛,太小则会降低收敛速度,且使网络更容易陷入局部极小值,训练过程中可以用启发式规则改变[ε]的值,本文取最下值为5e-005;[?2e?w2ij]是一个估计值,根据训练集的大小可以调整样本数量,文中随机选取200个样本估算它的值;[μ]用来避免[?2e?w2ij]太小时[ηki]的变化过大。

2.3多重卷积神经网络词句识别

本文提出的多重卷积神经网络对手写词语的识别方法可以简单地描述为:首先对输入的手写图像进行预处理和分割,然后通过多重卷积神经网络模块分别进行识别,最后采用单词识别模块对识别结果进行判断,选择最好的结果输出。其过程如图3所示。

图3多重卷积神经网络联机手写词句识别过程

本文提出的多重卷积神经网络联机手写文字识别方法克服了传统卷积神经网络文字识别的对字符集的限制,每一重卷积神经网络是一个针对小模式的卷积神经网络,易于训练和优化,更重要的是此方案的灵活性非常好易于调节参数,可扩展性强。每一重卷积神经网络都具有可重用能力,可以根据需要加载一个或多个网络,可以根据新的模式添加新的网络而不需改变或重建原来的网络。

3训练和实验

为了评估多重卷积神经网络对基于大模式字符集的联机手写文字识别的性能,本系统采用mniSt和Unipen两种不同的手写字符训练集进行测试。Unipen数据库是在1992年举行的ieeeiapR会议上提出并建立的,其目的是创建一个大型的手写体数据库用于为在线手写识别提供研究和开发的基础,得到了多个知名公司或研究所的支持并完成了Unipen的规范设计。在进行数据比对实验中,本文采用许多研究使用的mniSt手写数字数据库,该数据库是neC研究中心设计的,是niSt(thenationalinstituteofStandardsandtechnology)数据库的一个子集,该训练集中有大量训练样本和测试用例。本文默认用以下定义:

[识别率=正确识别数样本总数×100%]

[失误率误识率=错误识别数样本总数×100%]

实验测试是在通用的台式电脑上进行的。整个识别原型系统采用C#编写,运行在.netFrame4.5平台上。经测试对mniSt训练集识别正确率可达[9]99%,对Unipen数字识别正确率可达97%,对Unipen数字和大写字母识别正确率可达89%(1a,1b),对Unipen小写字母识别正确率可达89%(1c)。图4是对Unipen小写字母3次训练的均方误差比较。

图4训练的误差数据

从图4中可以看出,在开始的几个训练周期内,均方误差(mSe)下降得很快,然后在第13个周期后神经网络达到一个稳定的值,约为0.1485。也就是说,网络在第13个周期后,改善程度就很小。所以修改训练错误率的值为0.00045后重新进行18代的第二次训练,均方误差有所降低。经过第三次的训练后趋于稳定,对Unipen小写字母识别正确率可达89%。经测试,通过使用随机对角Levenberg?marquardt方法,收敛速度比基本Bp算法快了许多,经过68代训练后识别正确率可达89%。

4结语

本文提出了基于多重卷积神经网络的联机手写字符的识别方法,通过使用多个识别率高的卷积神经网络和随机对角Levenberg?marquardt方法,可以适用于大模式联机手写识别。经过实验数据比较,该方法在大模式联机手写识别过程中具有很高的识别率,与此同时识别速度也很快,有很好的实时性,总体效果很好。在当今触摸屏应用遍及生产生活的各个方面的趋势下,该方法有着广阔的应用前景。同时此方法为今后多手写汉字识别的研究提供了很好的借鉴。

注:本文通讯作者为潘立武。

参考文献

[1]吴鸣锐,张钹.一种用于大规模模式识别问题的神经网络算法[J].软件学报,2001,12(6):851?855.

[2]张辉.大规模联机手写汉字识别数据库整理、统计与实验分析[D].广州:华南理工大学,2012.

[3]徐姗姗,刘应安,徐,等.基于卷积神经网络的木材缺陷识别[J].山东大学学报:工学版,2013,43(2):23?28.

[4]吕刚.基于卷积神经网络的多字体字符识别[J].浙江师范大学学报:自然科学版,2011,34(4):425?428.

[5]pHamDV.onlinehandwritingrecognitionusingmulticonvolutionneuralnetworks[m].BerlinHeidelberg:Springer,2012:310?319.

[6]LeCUnY,BottoUL,BenGioY,etal.Gradient?basedlearningappliedtodocumentrecognition[C]//proceedingofieee.USa:ieee,1998:2278?2324.

[7]SimaRDpY,SteinKRaUSDave,pLattJohn.Bestpracticesforconvolutionalneuralnetworksappliedtovisualdocumentanalysis[C]//internationalConferenceonDocumentanalysisandRecognition(iCDaR).Losalamitos:ieeeComputerSociety,2003:958?962.

卷积神经网络的好处篇3

关键词:卷积神经网络;深度学习;图像处理;训练时间

中图分类号:tp18文献标识码:a文章编号:1009-3044(2016)33-0167-04

如今在机器学习领域中,深度学习方法已经占据了相当重要的地位,通过模仿人X学习方式构造模型,在图像、文本、语音处理方面取得了显著成果[1]。目前应用较为广泛的深度学习模型包含多层感知器模型(mLp)[2],卷积神经网络模型和限制性玻尔兹曼机模型等[4]。多层感知器[2]网络结构的神经节点一般分层排列,主要由输入层,输出层和一些隐层组成,同层之间的神经元节点无连接,相邻的两层神经元进行全连接,前一层的神经元的输出作为后一层神经元的输入,但本身此种算法存在着一些问题,那就是它的学习速度非常慢,其中一个原因就是由于层与层之间进行全连接,所以它所需要训练的参数的规模是非常大的,所以对其进行改进,产生了卷积神经网络模型。卷积神经网络模型在图像识别方面的应用十分广泛[5,8,9]。从它的结构上来看,层与层之间的神经元节点采用局部连接模式,而并非mLp的全连接模型,这样就降低了需要训练的参数的规模。而在它卷积层中,它的每一个滤波器作为卷积核重复作用于整个输入图像中,对其进行卷积,而得出的结果作为输入图像的特征图[6],这样就提取出了图像的局部特征。而由于每一个卷积滤波器共享相同的参数,这样也就大大降低了训练参数的时间成本。而本文,以卷积神经网络为研究对象,在其模型的基础上通过对其结构中卷积核也就是滤波器的大小进行调整并结合卷积核个数调整和gpu加速等已有的训练提速方法,达到降低训练时间并且对识别结果并无太大影响的目的。

1卷积神经网络

卷积神经网络在mLp的基础上,已经对结构进行了优化,通过层与层之间的局部连接以及权值共享等方式对要训练的参数的进行了大幅减低。

1.1局部连接

Bp神经网络中,神经元在本层中呈线性排列状态,层与层之间进行全连接,而在卷积神经网络中,为了减少每层之间的可训练参数数量,对连接方式进行了修改,相对于Bp神经网络的全连接,卷积神经网络采取了局部连接的连接方式[7],也就是说按照某种关联因素,本层的神经元只会与上层的部分神经元进行连接。

2.2权值共享

在Cnn中,卷积层中的卷积核也就是滤波器,重复作用在输入图像上,对其进行卷积,最后的输出作为他的特征图,由于每个滤波器共享相同的参数,所以说他们的权重矩阵以及偏置项是相同的。

我们从上图看出,相同箭头连线的权值是共享的,这样在原有的局部连接的基础上我们又降低了每层需要训练的参数的数量。

2.3卷积过程

特征图是通过滤波器按照特定的步长,对输入图像进行滤波,也就是说我们用一个线性的卷积核对输入图像进行卷积然后附加一个偏置项,最后对神经元进行激活。如果我们设第k层的特征图记为[hk],权重矩阵记为[wk],偏置项记为[bk],那么卷积过程的公式如下所示(双曲函数tanh作为神经元的激活函数):

2.4最大池采样

通过了局部连接与权值共享等减少连接参数的方式卷积神经网络中还有另外一个重要的概念那就是最大池采样方法,它是一种非线性的采样方法。最大池采样法在对减少训练参数数量的作用体现在两个方面:

1)它减小了来自m-1层的计算复杂度。

2)池化的单元具有平移不变性,所以即使图像在滤波后有小的位移,经过池化的特征依然会保持不变。

3卷积神经网络整体构造以及减少训练时间的方法

3.1使用GpU加速

本次论文实验中,使用了theano库在python环境下实现卷积神经网络模型,在lenet手写数字识别模型上进行改进,由于theano库本身支持GpU加速,所以在训练速度上实现了大幅度的提高。

3.2数据集的预处理

本次实验使用的两个数据集是mnist手写数字库以及cifar_10库

mnist手写数字库具有60000张训练集以及10000张测试集,图片的像素都为28*28,而cifar_10库是一个用于普适物体识别的数据集,它由60000张32*32像素的RGB彩色图片构成,50000张图片组成训练集,10000张组成测试集。而对于cifar_10数据集来说,由于图片都是RGB的,所以我们在进行实验的时候,先把其转换为灰度图在进行存储。由于实验是在python环境下运行,theano函数库进行算法支持,所以我们把数据集进行处理,此处我们对使用的数据集进行了格式化。格式化的文件包括三个list,分别是训练数据,验证数据和测试数据。而list中每个元素都是由图像本身和它的相对应的标签组成的。以mnist数据集为例,我们包含train_set,valid_set,test_set三个list,每个list中包含两个元素,以训练集为例,第一个元素为一个784*60000的二维矩阵,第二个元素为一个包含60000个元素的列向量,第一个元素的每一行代表一张图片的每个像素,一共60000行,第二个元素就存储了对相应的标签。而我们取训练样本的10%作为验证样本,进行相同的格式化,而测试样本为没有经过训练的10000张图片。在以cifar_10数据集为实验对象时,把其进行灰度化后,进行相同的格式化处理方式。

3.3实验模型结构

本次实验是在python环境下基于theano函数库搭建好的lenet模型进行参数的调整,以达到在实验准确度可接受情况下减少训练时间的目的。

上图为实验中的基础模型举例说明实验过程,首先以mnist数据集为例,我们的输入图像为一个28*28像素的手写数字图像,在第一层中我们进行了卷积处理,四个滤波器在s1层中我们得到了四张特征图。在这里要特别的说明一下滤波器的大小问题,滤波器的大小可根据图像像素大小和卷积神经网络整体结构进行设置,举例说明,假如说我们的输入图像为28*28像素的图像,我们把第一层卷积层滤波器大小设置为5*5,也就是说我们用一个大小为5*5的局部滑动窗,以步长为一对整张图像进行滑动滤波,则滑动窗会有24个不同的位置,也就是说经过卷积处理后的C1层特征图的大小为24*24。此处的滤波器大小可进行调整,本论文希望通过对滤波器大小的调整,已达到减少训练时间的目的,并寻找调整的理论依据。C1层的特征图个数与卷积过程中滤波器数量相同。S1层是C1经过降采样处理后得到的,也就是说四点经过降采样后变为一个点,我们使用的是最大池方法,所以取这四个点的最大值,也就是说S1层图像大小为12*12像素,具有4张特征图。而同理S1层经过卷积处理得到C2层,此时我们滤波器的大小和个数也可以自行设置,得到的C2层有6张特征图,C2到S2层进行降采样处理,最后面的层由于节点个数较少,我们就用mLp方法进行全连接。

3.4实验参数改进分析

由此可见,我们对滤波器的大小以及个数的改变,可以直接影响到卷积训练参数的个数,从而达到减少训练时间的目的。

从另一种角度来看,增大滤波器的大小,实际效果应该相似于缩小输入图像的像素大小,所以这样我们可以预测增大滤波器的大小会减少样本的训练时间,但是这样也可能会降低训练后的分类的准确率,而滤波器的大小是如何影响训练时间以及分类准确率的,我们通过对两种图片库的实验来进行分析。

4实验结果与分析

4.1以mnist手写数字数据集作为实验数据

我们知道卷积层可训练参数的数字与滤波器的大小和数字有关,所以我们通过对卷积层滤波器大小的变化来寻找较为普遍的可减少训练参数从而达到减少训练时间的目的。在实验记录中,我们表格纵列记录两层卷积层滤波器大小,横列分别为对已经过训练图像识别和对未经过训练的验证图像进行识别的错误率,最后记录每种滤波器大小搭配的使用时间。我们设定每次试验都进行100次重复训练,每次对权重矩阵进行优化。

此处我们记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。两层滤波器大小相加后相同的元素我们把其对应时间做平均。

4.2以cifar_10数据集作为实验数据

同样是以100次循环训练进行测试,通过改变两层中滤波器的大小来寻找减少训练时间的设定。

此处以同样的方法,记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。

4.3实验结果分析

从两组试验中,在不同的数据集下,我们得到了滤波器的大小与训练时间成反比的关系,而在减少了训练时间的同时确实增大了训练的错误率。

5总结

通过实验结果分析表明,增大卷积层滤波器大小的方法,在此两种数据库的情况下,是有效减小训练时间的方式,而在不同的数据库对分类准确率的影响程度不同,mnist手写数字数据库中图像之间的相似度非常高,所以滤波器的增大对准确率产生的负面影响较小,而ifar_10数据集中图像之间的相似度较小,所以增大滤波器的大小对其分类结果的准确率的负面影响较大。

参考文献:

[1]LeCunY,BengioY,HintonG.Deeplearning[J].nature,2015,521(7553):436-444.

[2]RuckDw,RogersSK,Kabriskym.Featureselectionusingamultilayerperceptron[J].]JournalofneuralnetworkComputing,1990,2(2):40-48.

[3]LeCunY,BengioY.Convolutionalnetworksforimages,speech,andtimeseries[J].thehandbookofbraintheoryandneuralnetworks,1995,3361(10):1995.

[4]LarochelleH,BengioY.ClassificationusingdiscriminativerestrictedBoltzmannmachines[C]//proceedingsofthe25thinternationalconferenceonmachinelearning.aCm,2008:536-543.

[5]Krizhevskya,Sutskeveri,HintonGe.imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//advancesinneuralinformationprocessingsystems.2012:1097-1105.

[6]ZeilermD,FergusR.Visualizingandunderstandingconvolutionalnetworks[C]//europeanConferenceonComputerVision.Springerinternationalpublishing,2014:818-833.

[7]JarrettK,KavukcuogluK,LecunY.whatisthebestmulti-stagearchitectureforobjectrecognition?[C]//2009ieee12thinternationalConferenceonComputerVision.ieee,2009:2146-2153.

卷积神经网络的好处篇4

关键词:智能消防;火焰识别;卷积神经网络

一、智能装备简介

若想提高消防救援队伍的灭火救援效能,提高装备的智能化水平是必不可少的一步。消防装备的配备情况影响着战术和战术效果,甚至是直接影响救援成功率的重要因素。因此,提升装备的智能化水平、改善装备结构从而提升消防救援队伍的作战能力是关系广大人民群众生命以及财产安全的重要手段。消防装备智能化的研究工作任重而道远。本文着眼于图像法火焰识别技术,通过研究新技术,探讨将其应用于智能消防装备之中的可行性。

二、卷积神经网络的简介

(一)网络结构。卷积神经网络功能繁多,其中多层检测学习神经网是一种多层次的神经监测网络。其中心模块为卷积层,主要由隐藏层与最大池采样层组成,主要功能是特征提取。其中,连接层与传统多层感应器的隐藏层、逻辑归类器相对应。卷积神经网络的输入特征来源使卷积滤波器,而该神经网络的每一层都有多个理论上的神经元以及特征图。在给一个来自卷积和子采样层的输入统计滤波后,系统就提取了图像局部的特征,就可以确定它与其他特征之间的相对方位,上一层的输出值直接输入至下一层。通常情况下,我们可以通过特征层来得到卷积层(特征层是指:输入到隐藏层之间的映射)。(二)局部感受野与权值共享。局部感受野:由于图像空间的连接是局部性的,因此每个神经元都不需要感测全部图像,而只需感觉到局部的特征。然后,通过对较高级别感测量的局部神经元进行集成,可以得到整体的信息,并且减少了连接数量。权重分享:不同神经元之间的参数分享可通过降低求解参数,并通过放大器对图像的放大积获得多种特征图。实际上,权重共享图像上的第一隐藏层的所有神经元由于是在同一卷积上确认的,所以均能在图像的任意一个位置检测到毫无差别的特性。他的最主要的功能是能够通过适应小范围的图像和平移从而达到检测不同位置的目的,也就是良好的不变性平移。(三)卷积层、下采样层。卷积层:通过去卷积来提取图像特征,用来强化初始信号原属性,从而减少噪音。下采样层:由于研究人员发现图像下采样过程中,它能在保留信息的同时降低数据处理量,因此在发现某一特定的特征后,由于这个位置并不重要,所以样本会扰乱特定的位置。我们只需要知道这个特征与其他特点之间的空间相对方位,就可以处理类似的物体由变形和变型而产生的变化。(四)卷积神经网络的不足。如果网络层需要加深,每一个网络层增加的神经元数量会大幅增加,从而使模型复杂化,增大了调整参数的难度,也增大了过度拟合的风险。此外,在反向传播过程中,连续迭代会使梯度不断减小,而梯度一旦归零,权值便无法更新,导致神经元失效。(五)展望与总结随着研究人员对卷积神经网络相关的研究不断推进,其性能日益强大,复杂度也日益提升。目前,卷积神经网络的相关研究已经取得了显著成效。然而,一些人工扰动(如向原图片中键入噪点)仍然会导致图像的错误分类。如何解决这一问题,是今后研究的重点。此外,卷积神经网络的结构升级仍有很大空间,通过提升网络结构设计的合理性,可以完善量化分析能力。

三、图像分割

图像中包含很多数据,需要分割图像。然而,精确区分干扰是对整个系统亮度的精确分类和准确划类的前提。图像的分析技术是计算机视觉技术的基础。通过图像分割、提取特征参量等方法可以将原本的图像抽象化,从而便于分析和处理。多年以来,图像的分割技术研究一直是重中之重,研究人员给出了多种分割方法。一般而言,图像分割是将图像划分为不同的区域,给不同的区域赋予不同的权重,从而获取重要对象的一种技术。特征可能是灰度、颜色、纹理等,目标可能对应一个区或多个地方,这与特殊目的应用程序和特殊目的服务请求程序有关。一般而言,图像取值分割分析算法大致来说可以再细分为图形图像取值分割、边缘图像分割、区域分割和重复图像分析四大个门类。

四、火焰色彩虚拟模型的特征

(一)火焰色彩颜色类型特征。火焰色彩模型一般来说是基于某种火焰色彩类型模式,通过在图像阈值控制范围内通过设置某种色彩模型图像阈值来降噪提取火焰颜色特征图像。可以用任何提取静态火焰的特殊像素或者图案方式来精确描述一个静态火焰特征。然而,单纯地依靠颜色模型来进行火焰识别会导致严重的误判。火焰的颜色范围是非常大的,所以它很可能与其他物体颜色相近,导致模型将其混为一谈。(二)降噪在。火焰发展的初期过程中,是不断处于移动变化的。又一方面,火焰的全部运动都不会跳跃,也就是火焰满足相对稳定性。所谓燃烧火灾的相对稳定性,是指在火灾发生后,燃烧范围的空间会成一个相对稳定的扩增趋势扩增。通过分析火灾的相对稳定性,可以消灭许多虚假信号。(三)静态模型。在基于单帧图像识别的算法中,由于只使用了几个以火焰为基准的单一形状特征,因此算法复杂、误判率很高。因此,一个能够自主优化识别的模型就显得十分重要,图像静态特征提取的方法如下:由于曲率在人的视觉系统中往往是观测场景的重要参数,因此提取几何图像曲率等参数,并以此描绘火焰图像;根据测得的数据,描绘连续零曲率以及局部最大曲率、最高曲率正负值等集合特点。(四)动态模型在动态燃烧过程中,产生的火焰具有持续性。此外,根据火焰自身的特性和各种原因,火焰还会不断发生变化。然而,这种变化并不在单个帧图像中反映出来,而是在连续的多帧图像中只反映。因此,提取火焰的动态特征就是分析处理连续多帧图像。近年来,随着火灾科学的发展,从火焰的随机状态中发现了其规则性:1.火焰的面积增长性;2.火焰的形状相似性;3.火焰的整体移动。基于图像的火焰识别算法可划分为动态识别和静态识别。若将这两种算法同步进行应用,则定能增加工作效率。火焰形成的重要特点之一便是火焰形状。对于采集到的ccd火焰图像,首先进行两个连续的图像差分操作,然后通过分割方法获得连续帧的变化区域,使用扫描窗口得到的像素点数来记述连续帧变化区域。变化区域是指:图像处理中,在获得阈值之后,通过对高光度进行科学计算、实验分析,最终得到的区域。当其他高温物体移动到相机或离开视野时,所检测到的目标区域会逐渐扩大,并容易引起干扰,从而造成系统错误的报告。因此,需要将数据和其他图像的关键性特征进行一个高强度的结合,再深度进行挖掘。火焰的形状相似性:图像之间的类似性通常依赖于已知描述特点之间的差异度。该方法能够在任意复杂程度上建立相应的类似性量。我们可以对两个相似的元素进行比较,也可以对两个相似的场面进行比较,图像之间的相似性通常意义上是指场景以及结构上的相似性。在一般情况下,图像的结构相似度往往并不高,因此,我们倾向于选择更加典型的结构特点进行描述,如区域面积、区域亮度、线段长度等参数。虽然火焰的图像序列中火焰的边缘往往是很不稳定的,但图像的总体变化会被限制在一定范围内,而且一般的干扰信号模式包含了固定点或者光照变化,因此,在火焰识别的过程中,可以用初始火焰形状的变化规则与其进行对照。尽管火焰的变化通常呈现出不规则的特性,然而这种不规则在形态、空间分布等方面往往具有某种相似之处,因此,我们可以用连续图像的结构相似性来进行解析。

五、结语

各种高新技术不断飞跃式发展,这为我国消防智能化技术的开发以及与外国新型消防设备之间的碰撞提供了一个良好的契机,而消防装备的智能化已成为一个必然的趋势。自改革开放至今,我国所研究的有关装备智能化领域内取得的成果,已经为我们打下了坚实的发展基础,因此我们更应该加快消防智能化的进程,综合现有所具备的技术,取其精华去其糟粕,适而用之。由于研究条件和专业方向的局限,本文对智能消防装备中的火焰识别技术仍然存在不足。此次智能消防装备的研究方向主要是火焰识别领域,以建立模型的方法进行测算与研究,而对于理论性知识方面的探讨仍存在很大的不足。之后的研究可以从其他方面进行深入的探讨,探究其对系统化建模会产生哪些方面的影响。

参考文献:

[1]喻丽春,刘金清.基于改进maskR-Cnn的火焰图像识别算法[J].计算机工程与应用,2020,964(21):200-204.

[2]肖堃.多层卷积神经网络深度学习算法可移植性分析[J].哈尔滨工程大学学报,2020,41(03):420-424.

[3]郭昆.基于卷积神经网络的建筑风格图像分类的研究[D].武汉理工大学,2017.

[4]徐晓煜.极化合成孔径雷达舰船检测方法研究[D].西安电子科技大学,2017.

[5]黄忆旻.基于图像检索的导游系统的设计与实现[D].苏州大学,2016.

[6]宋戈.火灾自动检测技术在无人值守变电站中的应用[D].沈阳理工大学,2010.

[7]葛勇.基于视频的火灾检测方法研究及实现[D].湖南大学,2009.

卷积神经网络的好处篇5

关键词】人工智能alphaGo神经突触机器学习模式识别

【中图分类号】tp18【文献标识码】a

【Doi】10.16619/ki.rmltxsqy.2016.07.002

2016年3月9~15日,谷歌公司研发的alphaGo围棋软件与韩国棋圣李世石进行了五场人机对决,alphaGo以4比1的比分取得了压倒性的胜利。这个比赛结果不仅震惊了整个围棋界,也让人工智能领域的许多专家学者跌破眼镜,更让人工智能走出象牙塔,成为许多普通百姓茶余饭后的热点话题。这场人机围棋巅峰对决不仅向全世界展示了人工智能的强大实力与巨大应用潜力,也在人类社会引起了不小的恐慌和忧虑。人们开始认真思考以下这些问题:机器智能最终会超越人类智能吗?人工智能将会如何改变人类社会?未来的智能机器会像电影《终结者》里所描述的那样试图主宰人类、甚至消灭人类吗?要想回答这些问题,我们首先需要了解人工智能的本质及其基本原理,进而讨论其发展的规律和前景。当前,人工智能领域最前沿的分支学科当属机器学习分支。本文首先对机器学习分支中最受世人瞩目的研究成果――深度学习卷积神经网络――做一个简单综述,进而围绕机器学习的本质及其基本原理进行探讨。接下来,通过对人脑认知机理最新研究成果的概括介绍,揭示机器智能与人类智能的本质差异,比较两种智能的优势与劣势。通过机器智能与人类智能的优劣势比较,试图找出上述几个问题的答案。

深度学习卷积神经网络

过去几年里,深度学习卷积神经网络所取得的成就足以使它成为人工智能王冠上最光彩夺目的明珠。基于深度学习卷积神经网络的语音识别系统把语音识别的精度提高到了产品级的精度,从而为人类与计算机及各种智能终端之间提供了一种崭新的、更为便捷的交互方式。将深度学习卷积神经网络应用于图像内容及人脸的识别,科学家们取得了能够与人类视觉系统相媲美的识别精度。战胜韩国棋圣李世石的谷歌围棋软件alphaGo能够取得如此辉煌的战绩,深度学习卷积神经网络也发挥了关键性的作用。接下来,我们对深度学习卷积神经网络的起源及其原理做一个简单介绍。

脑神经科学领域的大量研究表明,人脑由大约1011个神经细胞及1015个神经突触组成,这些神经细胞及其突触构成一个庞大的生物神经网络。每个神经细胞通过突触与其它神经细胞进行连接与信息传递。当通过突触所接收到的信号强度超过某个阈值时,神经细胞便会进入激活状态,并通过突触向上层神经细胞发送激活信号。人类所有与意识及智能有关的活动,都是通过特定区域神经细胞之间的相互激活与协同工作而实现的。

早于1943年,美国心理学家w.S.mcCulloch和数学家w.a.pitts就在他们的论文中提出了生物神经元的计算模型(简称m-p①模型),为后续人工神经网络的研究奠定了基础。m-p模型的结构如图1(a)所示,它包含n个带有权重的输入,一个输出,一个偏置b和一个激活函数组成。n个输入代表来自下层n个神经突触的信息,每个权重w)代表对应突触的连接强度,激活函数通常采用拥有S-型曲线的sigmoid函数(参见图1(b)),用来模拟神经细胞的激活模式。

早期的人工神经网络大都是基于m-p神经元的全连接网络。如图2所示,此类网络的特点是,属于同一层的神经元之间不存在连接;当前层的某个神经元与上一层的所有神经元都有连接。然而,人们很快发现,这种全连接神经网络在应用于各种识别任务时不但识别精度不高,而且还不容易训练。当神经网络的层数超过4层时,用传统的反向传递算法(Backpropagation)训练已经无法收敛。

1983年,日本学者福岛教授基于Hubel-wiese的视觉认知模型提出了卷积神经网络计算模型(Convolutionneuralnetwork,简称Cnn)。早在1962年,Hubel和wiesel通过对猫视觉皮层细胞的深入研究,提出高级动物视觉神经网络由简单细胞和复杂细胞构成(如图3所示)。神经网络底层的简单细胞的感受野只对应视网膜的某个特定区域,并只对该区域定方向的边界线产生反应。复杂细胞通过对具有特定取向的简单细胞进行聚类,拥有较大感受野,并获得具有一定不变性的特征。上层简单细胞对共生概率较高的复杂细胞进行聚类,产生更为复杂的边界特征。通过简单细胞和复杂细胞的逐层交替出现,视觉神经网络实现了提取高度抽象性及不变性图像特征的能力。

卷积神经网络可以看作是实现上述Hubel-wiesel视觉认知模型的第一个网络计算模型。如图4所示,卷积神经网络是由卷积层(ConvolutionLayer)与降采样层(SamplingLayer)交替出现的多层神经网络,每层由多个将神经元排列成二维平面的子层组成(称为特征图,Featuremap)。每个卷积层和上层降采样层通常拥有相同数量的特征图。构成卷积层x的每个神经元负责对输入图像(如果x=1)或者x-1降采样层的特征图的特定小区域施行卷积运算,而降采样层y的每个神经元则负责对y-1卷积层的对应特征图的特定小区域进行maxpooling(只保留该区域神经元的最大输出值)。卷积运算中所使用的卷积核系数都是通过学习训练自动获取的。卷积层中属于同一个特征图的神经元都共享一个卷积核,负责学习和提取同一种图像特征,对应Hubel-wiesel模型中某种特定取向的简单细胞。卷积层中不同的特征图负责学习和提取不同的图像特征,对应Hubel-wiesel模型中不同类型的简单细胞。而降采样层y中神经元的maxpooling操作等同于Hubel-wiesel模型中复杂细胞对同类型简单细胞的聚类,是对人脑视觉皮层复杂细胞的简化模拟。

上世纪90年代初期,贝尔实验室的YannLeCun等人成功应用卷积神经网络实现了高精度手写数字识别算法,所提出的系列Lenet,都达到商用级识别精度,被当时美国邮政局和许多大银行用来识别信封上的手写邮政编码及支票上面的手写数字。然而,受制于90年代计算机有限的内存和弱小的运算能力,Lenet网络采用了较浅的网络结构,每层使用的特征图数目也很少。尽管它在小规模图像识别问题上取得了较好的效果,但与传统机器学习算法(如SVm,adaBoost等)相比,优势并不十分明显。此外,由于卷积神经网络拥有很高的自由度,设计出一款性能优异的网络需要灵感并配合丰富的经验积累,是一项极具挑战性的工作。因此卷积神经网络在被提出后的很长一段时间里并未得到足够的重视和广泛的应用。

2012年,加拿大多伦多大学GeoffreyHinton教授的团队提出了一个规模比传统Cnn大许多的深度卷积神经网络(简称alexnet)。该网络拥有5个卷积与降采样层、3个全连接层,每个卷积与降采样层拥有96384个特征图,网络参数达到6000多万个。利用alexnet,Hinton团队在国际上最具影响力的图像内容分类比赛(2012imagenetiLSVRC)中取得了压倒性胜利,将1000类图像的top-5分类错误率降低到15.315%。在这次比赛中,获得第二、三、四名的团队均采用了传统机器学习算法。三个团队的top-5图像分类错误率分别是26.17%、26.98%和27.06%,相差不到1个百分点,而他们的成绩和第一名相比却低了超过10个百分点,差距十分明显。当前,深度卷积神经网络(DeepCnn)相对传统机器学习算法的优势还在不断扩大,传统学习方法在多个领域已经完全无法与DeepCnn相抗衡。

机器学习算法的基本原理及其本质

在几千年的科学探索与研究中,科学家们提出了许多描述自然界及人类社会中各种事物与现象的数学模型。这些模型主要可以被归纳为以下三大类别。

归纳模型:由少数几个参数(变量)构成,每个变量都具有明确的物理意义。这类模型能够真正揭示被描述对象的本质及规律,许多数学和物理定律都是典型的归纳模型。

预测模型:用一个拥有大量参数的万能函数来拟合用户所提供的训练样本。万能函数的参数一般不具备任何物理意义,模型本身往往只能用来模拟或预测某个特定事物或现象,并不能揭示被描述事物或现象的本质及内在规律。当代的大多数机器学习算法都是构建于预测模型之上的。例如,单隐层全连接神经网络所使用的数学模型是:

上式中,x代表神经网络的输入,代表神经网络的参数集,m是隐层神经元的个数。这个数学模型如同一个橡皮泥,可以通过变换它的参数集被塑造成任何形状。给定一个训练样本集,其中分别代表训练样本i以及人工赋予该样本的标签(标签表示样本的类别或某种属性),通过利用t进行训练,我们就能够得到一个优化的参数集,使神经网络能够很好地拟合训练样本集t。当新的未知样本x出现时,我们就能够利用训练好的神经网络预测出它的标签y。显而易见,神经网络的参数集规模与神经元的数目及输入x的维数成正比,所有参数没有任何物理意义,模型本身也不具备揭示被描述对象的本质及内在规律的能力。

直推模型:没有明确的数学函数,利用所采集的大数据预测特定输入的标签。此类模型认为针对某个事物或现象所采集的大数据就是对该事物或现象的客观描述。大数据的规模越大,对事物或现象的描述就越全面和准确。当新的未知样本x出现时,我们可以在大数据中找到x的K近邻,根据K近邻的标签或属性来决定x的标签或属性。显而易见,由于不需要定义明确的数学模型,与其它模型相比,直推模型最简单直接,但因为依靠大数据来决定未知样本的标签,直推模型往往需要较高的计算量及使用成本。同样,直推模型也不能被用来揭示事物或现象的本质及内在规律。

应当指出,随着互联网用户数量的不断增长以及互联网技术的快速进步,利用互联网获取内容或用户大数据变得越来越简单廉价,利用直推模型来预测某个事物或现象也变得越来越普及。例如,许多互联网搜索引擎利用每个网页的用户点击率来改进搜索网页的排序精度,就是直推模型在互联网内容搜索领域的一个成功应用。

综上所述,机器学习算法的本质就是选择一个万能函数建立预测模型。利用用户提供的训练样本对模型进行训练的目的,就是选择最优的参数集,使模型能够很好地拟合训练样本集的空间分布。通过训练得到的预测模型,实际上把训练样本集的空间分布提取出来并编码到其庞大的参数集中。利用这个训练好的预测模型,我们就能够预测新的未知样本x的标签或属性。当今大多数机器学习算法都是基于这个原理,谷歌公司的alphaGo也不例外。

针对某个事物或现象所采集的训练样本,是对该事物或现象的直观描述,蕴藏着大量与之相关的先验知识。例如,imagenetiLSVRC国际图像内容分类比赛所提供的训练样本集拥有1000类、总共一百多万张彩色图像。每一类都对应自然界中的一种常见物体,如汽车、飞机、狗、鸟,等等,包含大约1000张从不同场景及不同角度拍摄的该种物体的彩色图像。利用这个训练样本集训练出来的深度卷积神经网络,实际上是将每类物体的共性特征及个体差异等进行信息提取与编码,并记忆到其庞大的参数集中。当新的未知图像出现时,神经网络就能够利用已编码到参数集中的这些先验知识,对输入图像进行准确的识别与分类。

同样,谷歌公司在训练alphaGo时,收集了20万个职业围棋高手的对局,再利用alphaGo不同版本间的自我对弈生成了3000多万个对局。3000多万个围棋对局包含了人类在围棋领域所积累的最为丰富和全面的知识与经验。当新的棋局出现时,alphaGo利用被编码于其庞大参数集中的这些先验知识,预测出胜率最高的一步棋,以及这步棋所产生的最终胜率。由于alphaGo针对3000多万个对局进行了学习与编码,它对每一步棋的胜负判定甚至比九段棋手还要准,人类棋圣输给alphaGo也就不足为奇了。

人类智能的本质与特性

对于人脑及其高度复杂的智能,人类至今还所知甚少。关于“智能”这个名词的科学定义,学术文献中就存在着许多个版本。即使是少数几个被深入研究的认知功能(如人脑的视觉认知功能)的工作机理,也还存在着各种各样的假说和争议。在这里,我们列出若干较具代表性、认可度相对较高的关于人脑智能的假说及阐述。

人类智能的本质是什么?这是认知科学的基本任务,也是基础科学面临的四大难题(Simon)中最后、最难解决的一个。每门基础科学都有其特定的基本单元,例如高能物理学的基本粒子,遗传学的基因、计算理论的符号、信息论的比特等。因此,“人类智能的本质是什么”这个问题在某种程度上取决于“什么是认知基本单元”。众所周知,适合描述物质世界的变量并不一定适合描述精神世界。因此,认知基本单元是什么这个问题,不能靠物理的推理或计算的分析来解决,根本上只有通过认知科学的实验来回答。大量实验结果显示,认知基本单元不是计算理论的符号,也不是信息论的比特,而是知觉组织形成的“知觉物体”。例如,实验表明,当人的视觉系统注意一只飞鸟的时候,它所注意的是整只鸟(即一个知觉物体),而不是鸟的某个特性(形状、大小、位置等)。尽管在飞行过程中鸟的各种特征性质在改变,但它是同一个知觉物体的性质始终保持不变。诺奖得主Kahneman认为,知觉物体概念的直觉定义正是在形状等特征性质改变下保持不变的同一性。中科院陈霖院士领导的团队在发展了30多年的拓扑性质知觉理论的基础上,提出大范围首先的知觉物体拓扑学定义:知觉物体的核心含义,即在变换下保持不变的整体同一性,可以被科学准确地定义为大范围拓扑不变性质。应当指出,上述大范围首先知觉物体的概念,与人工智能领域广为认同与采纳的由局部到整体,由特征到物体,由具体到抽象的认知计算模型是完全背道而驰的,因而在人工智能领域并没有得到足够的重视及应用。

大量认知科学领域的实验研究表明,人类智能具有以下几个特性。

人类智能的目标不是准确。人类智能并不追求在精神世界里客观准确地再现物理世界。上帝设计人类智能时,不假思索地直奔“生存”这一终极目标而去:用最合理的代价,获取最大的生存优势。人类大脑的平均能耗大约只有20瓦,相对于庞大的计算机系统来说只是九牛一毛。尽管人脑的重量只有1400克左右,约占人体重量的2.3%,但它的血液供应量却占到了全身的15.20%,耗氧量超过全身的20%,对于人类已经接近其生理可以负担的极限。在这种资源极其有限的条件下,人脑通过以下几种方式实现了最有效的资源调配,由此来保障最有意义的生理和智能活动。

第一,主观能动的选择性。精神世界不是对物理世界的简单映射,而是非常扭曲和失真的。体积相对较小的手指、舌头等重点区域,在感觉运动中枢里却占据大部分的皮层区域。同样,在视觉上只有对应中央视野的视网膜具有很高的空间、颜色分辨率,而更广泛的外周视野只对物体的突然出现或消失,以及物体的运动更敏感。人类视觉处理的通常方式是,外周视野的显著变化会在第一时间被捕获,做出应激反应,然后再把中央视野移动到目标上进行后续的处理。

人类通过知觉组织的选择性注意机制,直接感知输入信号中的大范围不变性质,而忽略大量的局部特征性质。大量视而不见的现象,在实验室研究中表现为注意瞬脱、变化盲视等等。比如,尽管可以清晰地分辨出霓虹灯中的色块颜色、形状各不相同,甚至在空间和时间上都不连续,人脑仍然把这些色块看成是同一个物体,从而产生运动的感觉。研究表明,这种运动错觉本质上不是运动,其生态意义在于对知觉对象进行不变性抽提。另一方面,人脑会主动把忽略的部分补充回来。而通过经验知识,上下文关系等补充回来的信息,难免有错。所谓错觉就是精神世界和物理世界的错位。这些错觉的生态意义在于在有限资源条件下,快速直接地形成稳定的感知。这种机制既是人类天马行空的联想能力和创造力的源泉,同时也是各种精神心理疾患的生物学基础。

第二,模块化的层次结构和分布式表征。当前认知科学越来越依赖于脑成像技术的发展。功能模块化假设认为,大脑是由结构和功能相对独立、专司特定认知功能的多个脑区组成。这些模块组成复杂的层次结构,通过层次间的传递和反馈实现对输入信号的主动调节。大量脑成像的研究实验也支持了这一假设,特别是视觉研究发现了非常详细而复杂的功能模块及其层次结构。另一方面,分布式表征的假说认为,认知功能的神经机制是相对大范围的分布式脑状态,而不是特定脑区的激活与否。当前研究认为,人脑是模块化和分布式表达共存的自能系统。

第三,反应性活动和内生性活动。人脑不是一个简单的刺激―反应系统,大量的内生性活动甚至比反应性活动还多。人脑在所谓的静息状态下的耗氧量与任务状态下相比差别很小。然而几乎所有的经典认知科学研究都是建立在刺激反应实验范式的基础之上。这种实验范式是让实验对象在特定的条件下完成特定的认知任务,收集并分析实验对象的行为或生理反应,通过对实验数据的充分比照,建立人脑某种活动模式或认知机理的假设。内生性活动因其往往只能通过内省的方式进行研究,而被长期排除在认知科学的研究主流之外。随着脑成像技术的发展,功能连接成为分析静息态大脑自发活动的有力工具。特别是默认网络的发现,创立了强调内生性活动的全新脑功能成像研究范式。默认网络被认为涉及警觉状态、自我意识、注意调控以及学习记忆等心理认知过程,已被广泛应用于社会认知、自我、注意、学习、发育、衰老机制的研究,有力推动了各种脑生物指标的完善和脑疾病的治疗,这些疾病包括阿尔兹海默病、帕金森病、抑郁症、精神分裂症和自闭症等等。

因此,整合现有研究中有关分布式表达和内生性活动的最新研究成果,可能会带来对人脑活动模式(人类智能的物质基础)一种全新的理解。

人类智能的本质不是计算。人类智能体现在对外部环境的感知、认知、对所观察事物或现象的抽象、记忆、判断、决策等。然而,这些智能并不是人类所独有。许多高等动物,如狗、猴子、猩猩,也或多或少具有类似的能力。同时,计算并不是人类智能的强项。真正将人类与其它动物区分开来的,是人类的逻辑推理能力、想象力、创造力以及自我意识。人类利用这类能力能够想象并且创造出自然界中不存在的东西,如汽车、飞机、电视、计算机、手机,互联网。这类能力是推动人类社会不断发展与进步的源泉,是生物智能的圣杯。

而对代表生物智能最高水平的上述能力,人类目前还所知甚少,对其机理的研究还处于启蒙阶段。研究表明,这些能力不是依靠计算得来的,而似乎是与联想记忆及人类丰富的精神世界有关。基于脑信号的分析实验发现,人脑的海马回、海马旁回、杏仁核等脑区中存在着大量专司特定联想记忆的神经细胞。例如,上述脑区中存在单个或一小簇神经细胞,会被与美国前总统克林顿相关的所有刺激信号所激活,无论刺激信号是关于克林顿的图片,还是Clinton这个英语单词,还是克林顿本人的语音回放。显然,这些神经细胞并不是被某个模态的特定特征所激活,它们所对应的是克林顿这个抽象概念。此外,脑成像研究表明,围棋专业棋手相对于业余棋手更多的是依赖联想记忆系统,而非逻辑推理来下棋。实际上,围棋界训练棋手的最常用方法就是将高手对局中的关键部分拆解成许多死活题,棋手通过大量死活题的解题训练来提高自己联想记忆的经验和效率。

机器智能与人类智能的优势与劣势

当代的计算机拥有强大的存储与运算能力。伴随着计算技术的不断发展与进步,这些能力的增长似乎还远没有到达尽头。早在1997年,iBm的“深蓝”超级电脑就战胜了国际象棋冠军卡斯帕罗夫。但这次胜利在人工智能领域并没有产生太大的反响,原因在于,“深蓝”几乎纯粹是依靠强大的运算能力遍历所有的可能性,利用“蛮力”取胜的。“深蓝”所遵循的,就是“人工智能即是计算加记忆”这个简单法则。由于围棋的搜索空间比国际象棋大很多,“深蓝”的这种制胜策略针对围棋是行不通的。与“深蓝”相比,alphaGo的最大进步就是从“计算加记忆”进化到“拟合加记忆”法则。它利用深度卷积神经网络这个万能函数,通过学习来拟合两千多年来人类所积累的全部经验及制胜模式,并将其编码到神经网络的庞大参数集中。对于当前棋局的任何一个可能的落子,训练好的神经网络都能够预测出它的优劣,并通过有限数量的模拟搜索,计算出最终的获胜概率。这样的战略不需要对棋局的所有可能性做遍历搜索,更像人类棋手所使用的策略。然而,由于alphaGo对每个落子以及最终胜率的预测,是建立在围棋界两千多年来所形成的完整知识库之上的,它的预测比人类最优秀的棋手更准确。与其说李世石输给了机器系统,不如说输给了人类棋艺的集大成者。由此推断,alphaGo取胜也是情理之中的事。

与机器相比,人类智能的最大优势当属它的逻辑推理能力、想象力、创造力及其高效性。人脑功耗只有20多瓦,处理许多感知及认知任务(如图像识别、人脸识别、语音识别等)的精度与拥有庞大内存、运算速度达到万亿次的超级电脑相比却毫不逊色。尽管机器智能很可能在不远的将来在类竞赛中全面超越人类,但现有的机器学习框架并不能模拟出人类的想象力和创造力。因此,在当前情况下,机器智能全面超越人类智能的预测是不会成为现实的。

随着机器学习算法的不断发展与进步,计算机借助强大的存储与运算能力,学习人类几千年来发展与进化过程中所积累的完整知识的能力越来越强,借助完整知识库对复杂事务进行预测与判断的准确度将会全面超越人类。由此推断,在未来几十年里,不仅是那些简单重复性的体力劳动将会全面被机器取代,而且那些需要对复杂事务进行评估与判断的工作,如金融投资、企业管理、军事指挥等,也有可能被让位于机器智能。甚至大到整个国家,也可能会越来越依靠机器智能预测政治、经济、外交发展趋势,制定最优的政策方针及发展规划。实际上,许多发达国家的智囊机构已经在利用各种评估及预测模型为政府提供对各种事物的预测与判断,提出政策建议或解决方案。

然而,当前的机器学习框架无法模拟人类的想象力及创造力,科学研究与发明创造仍将是人类的优势所在。不难预测,在未来人类社会的发展进程中,将有越来越多的人从事科学研究以及新产品的设计研发工作。社会对每个人的知识能力、智慧以及发明创造力的要求将会越来越高,不具备这些能力的人们将会无法找到满意的工作,逐渐成为处于社会底层的贫困阶层。了解并解决科技迅速发展所带来的社会挑战,仍然是人类需要面对的任务,而机器是无法替代人类解决这些问题的。

(中科院生物物理所脑与认知国家重点实验室周天罡、西安交通大学电信学院韩劲松对本文亦有贡献)

责编/凌肖汉

卷积神经网络的好处篇6

【关键词】图像识别;数学建模;分类算法;深度学习

引言

随着微电子技术及计算机技术的蓬勃发展,图像识别应运而生,图像识别是研究用计算机代替人们自动地去处理大量的物理信息,从而代替人的脑力劳动。随着计算机处理能力的不断强大,图像识别从最早的文字识别、数字识别逐渐发展到人脸识别、物体识别、场景识别、精细目标识别等,所采用的技术也从最早的模板匹配、线性分类到广泛使用的深层神经网络与支持向量机分类等方法。

1.图像识别中的数学问题建模

1.1飞行器降落图像智能识别建模

在复杂地形环境下,飞行器进行下降过程,需要采集图像并且判断是否符合降落要求。在对飞行器进行最终落地点的选择时,如果降落点复杂程度较高,采集的图像中将会产生大量的训练样本数目,图像配准过程中,极大地增加了运算量,造成最佳降落点选择的准确率降低。提出了利用图像智能识别进行最佳降落点的建模。利用伪Zemike矩能够对降落点的图像形状进行准确的描述,利用procrustes形状分析法提取最佳降落点的特征,利用Rank的融合决策法最终实现最佳降落点选择的目的。

1.2人脸面部表情图像识别的隐马尔科夫建模

人有喜怒哀乐,目前有一种利用隐马尔科夫模型的建模方法,可以实现对人脸表情中的情感进行识别。具体的是:首先,采用子窗口对人脸面部表情图像进行采样,然后利用离散余弦变换提取所需要的特征向量,通过对人脸面部图像进行隐马尔科夫建模,使用获得的特征向量作为观测向量对人脸面部图像的隐马尔科夫模型进行训练,再使用训练后的隐马尔科夫模型对JaFFe人脸图像测试集中地人脸表情图像进行情感识别。

2.典型的图像识别算法

2.1基于Gabor变换和极限学习机的贝类图像种类识别

对贝类图像进行Gabor变换,提取其图像特征,确定了图像特征维数;采用2DpCa方法,对变换后的特征进行降维,并利用极限学习机(eLm)进行贝类图像的分类识别。与Bp神经网络和支持向量机(SVm)实验对比发现,极限学习机分类器用于贝类识别不仅速度极快而且泛化性良好,算法具有较高的精度。其特点对高维图像识别精确度高,但算法的复杂度和设计一个精确的分类器都显得难以把握。因此该类图像识别算法很难普遍推广使用,识别对象必须是贝类图像。

2.2利用公开的全极化SaR数据,研究基于SaR图像的检测、极化分解和识别算法

首先根据四个线极化通道合成伪彩色图像,从而对场景进行初步认知。利用一维距离像分析全极化各通道的信噪比强度,通过对目标进行pauli分解得到目标的奇次散射分量和偶次散射分量,从而完成对海杂波、建筑物和舰船的相干分量的研究。其特点过程简单易掌握,但识别对象有限。

2.3基于SVm的离线图像目标分类算法

基于SVm的离线图像目标分类算法,先对训练集预处理,然后将处理后的图像进行梯度直方图提取最后对图像目标的分离器进行检测,但是这种图像识别算法只是有效,实用性不强。

3.深度学习在图像识别的应用

3.1Deeplearning的原理

深度学习是一种模拟人脑的思考方式,通过建立类似人脑的神经网络,实现对数据的分析,即按照人类的思维做出先关解释,形成方便人们理解的图像、文字或者声音。深度学习的重点是对模型的运用,模型中需要的参数是通过对大量数据的学习和分析中得到的。

深度学习有两种类型:有监督学习和无监督学习。学习模型根据学习框架的类型来确定。比如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网就是一种无监督学习下的机器学习模型。

3.2深度学习的典型应用

深度学习是如今计算机领域中的一个夺人眼球的技术。而在深度学习的模型中研究热度最高的是卷积神经网络,它是一种能够实现大量图像识别任务的技术。卷积神经网络的核心思想是局部感受野、权值共享以及时间或空间亚采集。通常卷及神经网络使用最后一层全连接隐层的值作为对输入样本所提出的特征,通过外部数据进行的有监督学习,从而可以保证所得的特征具有较好的对类内变化的不变性。

3.2.1基于深度学习特征的人脸识别方法。

卷积神经网络在人脸识别领域取得了较大突破,为了更加有效的解决复杂类内变化条件下的小样本人脸识别问题,使用深度学习的方法来提取特征,与基于稀疏表示的方法结合起来,实验证明了深度学习所得的人脸特征具有很好的子空间特性,而且具有可迁移性以及对类内变化的不变性。

3.2.2基于深度学习的盲文识别方法。

目前盲文识别系统存在识别率不高、图片预处理较为复杂等问题。针对这些问题,利用深度模型堆叠去噪编码器自动、全面学习样本深层次特征,避免人为手工选取特征存在的多种弊端,并用学习的特征作为神经网络的输入,更大程度地避免了传统神经网络由于随机选取初值而导致结果陷入局部极值的问题。

3.2.3基于深度学习的手绘草图识别。

目前的手绘草图识别方法存在费时费力,较依赖于手工特征提取等问题。基于深度学习的手绘草图识别方法根据手绘草图时缺失颜色、纹理信息等特点,使用大尺寸的首层卷积核获得更多的空间结构信息,利用训练浅层模型获得的模型参数来初始化深度模型对应层的模型参数,以加快收敛,减少训练时长,加入不改变特征大小的卷基层来加深网络深度等方法实现减小错误率。

4.结论

图像识别是当代人工智能的热门研究方向,其应用领域也是超乎人类想象的,相信通过技术的不断创新,图像识别技术会给人们的生活带来智能化、个性化、全面化的服务。

参考文献:

[1]穆静,陈芳,王长元.人脸面部表情图像的隐马尔科夫建模及情感识别[J].西安:西安工业大学学报,2015(09).

[2]杨靖尧,里红杰,陶学恒.基于Gabor变换和极限学习机的贝类图像种类识别[J].大连工业大学学报,2013(04).

[3]马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报,2016(11).

卷积神经网络的好处篇7

黑匣认为,复杂神经网络、LStms(长短期记忆网络)、注意力模型(attentionmodels)等十大趋势将塑造人工智能未来的技术格局。

上述判断来自nipS(神经信息处理系统)2015大会。nipS始于1987年,是人工智能领域两大重要学习会议之一,由于ai的爆炸式发展,近年来逐渐成为许多硅谷公司必须参加的年度会议。在蒙特利尔召开的nipS2015吸引了众多ai学界与业界的顶级专家,与会人数接近4000。大会总共收录了403篇论文,其中深度学习课题约占11%。来自Dropbox的高级软件工程师Bradneuberg分享了他所注意到的十大技术趋势,黑匣将对每种趋势做了详细分析。

1、神经网络的架构正变得越来越复杂

感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络所能比。特别需要注意的是,神经网络正与不同的技术(如LStms、卷积、自定义目标函数等)相混合。

神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。未来的人工智能,最热门的技术趋势是什么?

(人工模拟神经元试图模仿大脑行为|图片来源:Frontiers)

但这一切都需要极高的计算能力。早在80年代初期,GeoffreyHinton和他的同事们就开始研究深度学习。然而彼时电脑还不够快,不足以处理有关神经网络的这些庞大的数据。当时ai研究的普遍方向也与他们相反,人们都在寻找捷径,直接模拟出行为而不是模仿大脑的运作。

随着计算能力的提升和算法的改进,今天,神经网络和深度学习已经成为人工智能领域最具吸引力的流派。这些神经网络还在变得更复杂,当年“谷歌大脑”团队最开始尝试“无监督学习”时,就动用了1.6万多台微处理器,创建了一个有数十亿连接的神经网络,在一项实验中观看了千万数量级的Youtube图像。

2、酷的人都在用LStms

当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便是无法做到这一点,而递归神经网络(Rnn)能够解决这一问题。

Rnn拥有循环结构,可以持续保存信息。过去几年里,Rnn在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的Rnn——长短期记忆网络(LStms)。

普通的Rnn可以学会预测“thecloudsareinthesky”中最后一个单词,但难以学会预测“igrewupinFrance…ispeakfluentFrench。”中最后一个词。相关信息(clouds、France)和预测位置(sky、French)的间隔越大,神经网络就越加难以学习连接信息。这被称为是“长期依赖关系”问题。未来的人工智能,最热门的技术趋势是什么?

(长期依赖问题|图片来源:CSDn)

LStms被明确设计成能克服之一问题。LStms有四层神经网络层,它们以特殊的方式相互作用。这使得“能记住信息很长一段时间”可以被视作LStms的“固有行为”,它们不需要额外学习这一点。对于大多数任务,LStms已经取得了非常好的效果。

3、是时候注意“注意力模型(attentionmodels)了

LStms是人们使用Rnns的一个飞跃。还有其他飞跃吗?研究者共同的想法是:“还有注意力(attention)!”

“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。

例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。未来的人工智能,最热门的技术趋势是什么?

(拥有“注意力”的Rnn在图像识别中的成功运用|图片来源:Github)

4、神经图灵机依然有趣,但还无法胜任实际工作

当你翻译一句话时,并不会逐个词汇进行,而是会从句子的整体结构出发。机器难以做到这一点,这一挑战被称为“强耦合输出的整体估计”。nipS上很多研究者展示了对跨时间、空间进行耦合输出的研究。

神经图灵机(neuralturingmachine)就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。未来的人工智能,最热门的技术趋势是什么?

(模仿人类短期工作记忆的神经图灵机|图片来源:arXiv)

2014年10月,GoogleDeepmind公布了一台原型电脑,它可以模仿一些人类大脑短期工作记忆的特性。但直到nipS2015,所有的神经图灵机都过于复杂,并且只能解决一些“小玩具”问题。在未来它们或将得到极大改进。

5、深度学习让计算机视觉和自然语言处理不再是孤岛

卷积神经网络(Cnn)最早出现在计算机视觉中,但现在许多自然语言处理(nLp)系统也会使用。LStms与递归神经网络深度学习最早出现在nLp中,但现在也被纳入计算机视觉神经网络。

此外,计算机视觉与nLp的交汇仍然拥有无限前景。想象一下程序为美剧自动嵌入中文字幕的场景吧。

6、符号微分式越来越重要

随着神经网络架构及其目标函数变得日益复杂和自定义,手动推导出“反向传播”(backpropagation)的梯度(gradients)也变得更加苦难而且容易出错。谷歌的tensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。

7、神经网络模型压缩的惊人成果

多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。

这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30FpS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,从而近乎实时地完成计算机视觉任务。

8、深度学习和强化学习继续交汇

虽然nipS2015上没有什么强化学习(reinforcementlearning)的重要成果,但“深度强化学习”研讨会还是展现了深度神经网络和强化学习相结合的前景。

在“端对端”(end-to-end)机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。还有大量工作需要完成,但早期的工作已经使人感到兴奋。

9、难道你还没有使用批标准化?

批标准化(batchnormalization)现在被视作评价一个神经网络工具包的部分标准,在nipS2015上被不断提及。

卷积神经网络的好处篇8

【关键词】生存质量;大学生;人格特征;网络成瘾;路径分析

doi:10.3969/j.issn.1000-6729.2009.02.014

中图分类号:C913.5,R749.91文献标识码:a文章编号:1000-6729(2009)002-0138-05

生存质量又称生命质量、生活质量(QualityofLife,QoL),是指个体生理、心理、社会功能以及物质生活条件各方面的客观状态和主观感受[1-2]。大学生是网络使用的高频率人群,也是网络成瘾(亦称网络过度使用)的高发人群之一[3-4]。国内外研究表明,网络过度使用对大学生的身心健康有严重的影响[3-5],但很少有研究评估网络过度使用大学生的生存质量状况。研究还表明,人格特征对大学生过度使用网络存在影响[4,6-7],但人格特征、网络使用程度与生存质量之间的关系尚不清楚。本研究采用路径分析探讨不同网络使用程度大学生人格特征与生存质量的关系,为改善和提高大学生的生存质量提供依据。

1对象与方法

1.1对象

2006年11月方便选取湖南省长沙市某综合性大学。该大学共有在校本科生近20000人,覆盖理科、工科和文科57个专业4个年级。其中理科学生7500人,工科学生9000人,文科学生3500人。一年级学生约5500人,二、三年级学生各5000人左右,四年级学生约4500人。采用分层整群抽样方法,先按专业(理科、工科和文科)分层,然后按年级(一、二、三、四年级)分层,用随机数字表法从每一层抽取3~4个班(要求每一层学生人数在100人左右)。共计抽样32个班1350人,其中44人因问卷缺省条目超过5%,予以剔除,最终获得有效问卷1306份。受试学生平均年龄为(19.5±2.1)岁,男女生比例分别为56.3%和43.7%。

1.2工具

1.2.1一般情况调查表

该表包括①社会人口学指标(年龄,性别,是否独生子女,生源地,所在年级,所学专业);②家庭情况(父母亲年龄,职业,受教育程度,家庭人均月收入);③人际关系(对父母亲关系的评价,与同学、老师相处情况,对学校生活的适应情况,对所学专业的满意度);④网络使用情况[上网时间,上网的目的,每月上网费用(元),对网络使用的态度]。

1.2.2网络成瘾诊断量表(internetaddictiontest,iat)[8]

该量表为自评量表,由20个条目组成,每个条目有5种选择,赋值1~5分,总分为100分。根据总分判定测试者是否网络成瘾及其程度,总分49分及以下为正常使用网络,50~79分判定为网络成瘾倾向,80~100分判定为网络成瘾。该量表目前国内使用较多,未见信度、效度指标报告。本研究中,该量表的内部一致性系数α达到0.9234,各条目间的相关系数在0.35~0.87之间,均有统计学意义。

1.2.3艾森克人格问卷(eysenckpersonalityQuestionnaire,epQ)(成人版)[9]

该问卷共有85个条目,包括四个分量表三个维度:p量表测量精神质维度、e量表测量内外倾维度、n量表测量神经质维度、L量表测量受试者的“掩饰”倾向和纯朴性。每个条目分“是”与“否”两种选择,其中一部分条目答“是”记“1”分,答“否”记“0”分,另一部分条目记分方式则相反,分别统计各分量表原始总分,再将各分量表原始总分换算成标准分。经验证该量表的信度和效度较好,各分量表间隔1个月重测,其相关系数为0.83~0.90,内部一致性系数为0.68~0.81[9]。

1.2.4世界卫生组织生存质量量表简表中文版(worldHealthorganizationQualityofLifeBriefScale,wHoQoL-BReF)[10]该量表由26个条目组成,包括总的生存质量和总的健康状况(共2个条目)及生理领域、心理领域、社会关系领域、环境领域4个维度(共24个条目),每个条目分别按1~5级计分,得分越高,说明生存质量越好。该量表已被证实具有较好的信度和效度[10]。考虑到量表的第21条“您对自己的性生活满意吗?”不适合大学生,胡国清等[11]采用相同量表对高中生调查时将该条目改为“您对自己青春期的变化适应吗?”,考虑到大学生与高中生具有相似之处,本次调查也将该条目作相同替换处理。

将被调查的学生集中在教室,由经过培训的调查人员讲解问卷的正确填写方法后,要求学生在30~40分钟时间内独立完成,所有问卷填写后当场收回。在调查结束后第14天随机抽取1个班的学生(共30人)进行重复测量,将两次调查结果进行一致性分析。

1.3统计方法

经调查人员核实评分后,用epiData3.0建立数据库,采用双录入检错。采用SpSS13.0软件进行描述性分析和方差分析(F检验),对方差分析有统计学差异者再用最小极差法(LSD)作两两比较。另外,采用结构方程模型分析软件amos(analysisofmomentStructures)7.0作路径分析。

2结果

2.1大学生网络成瘾情况

网络成瘾诊断量表评分结果显示,1306名大学生中有1129名大学生属于正常使用网络(占86.45%),有169人属于网络成瘾倾向(占12.94%),有8人属于网络成瘾(占0.61%)。

2.2不同网络使用程度大学生艾森克人格问卷、生存质量量表评分比较

方差分析结果显示,三组学生的神经质、精神质和掩饰维度得分差异有统计学意义。进一步两两比较显示,正常网络使用组学生的神经质、精神质维度得分低于网络成瘾倾向组和网络成瘾组学生,而掩饰维度得分高于网络成瘾倾向组和网络成瘾组学生;三组学生在生存质量的生理、心理和社会关系领域得分差异有统计学意义;经两两比较,正常使用网络组学生生理、心理和社会关系领域得分均高于网络成瘾倾向组和网络成瘾组学生(见表1)。

2.3人格特征对网络使用大学生生存质量影响的路径分析

该分析以艾森克人格问卷的内外倾、神经质、精神质、掩饰性得分为外生显变量,以网络成瘾诊断量表总分、生存质量量表的生理、心理、社会关系和环境领域得分为内生显变量,建立路径分析模型。模型通过最大似然法(maximumLikelihoodestimates,mL)不断拟合,最终得到拟合较好的路径分析修正模型[χ2=5.595,df=6,p=0.428;GFi(拟合优度指数)=0.993,aGFi(调整拟合优度指数)=0.982;RmSea(近似误差均方根)=0.035](图1)。内外倾对生存质量的4个领域均有直接正向效应,神经质、精神质对生存质量的4个领域均有直接负向效应,神经质、精神质对网络成瘾分有直接正向效应,掩饰性对网络成瘾分有直接负向效应,神经质、精神质、掩饰性还可通过影响网络成瘾分间接影响生存质量的3个领域(环境领域除外);网络成瘾分对生存质量的3个领域(环境领域除外)有直接负向效应。

艾森克人格问卷4个分量表得分高低对网络成瘾分及生存质量4个领域的影响效应大小(包括总效应、直接效应和间接效应)见表2。

3讨论

本研究结果表明,大学生网络成瘾倾向及网络成瘾的比率为13.55%。曾瑾等[12]采用相同量表报告成都市大学生网络成瘾比率(网络成瘾倾向+网络成瘾)为5.8%,中学生网络成瘾比率(网络成瘾倾向+网络成瘾)为20.3%,提示大学生网络成瘾率存在时间、地点、人群差异。本研究单因素分析显示,网络成瘾倾向大学生与网络成瘾大学生生存质量的3个领域(环境领域除外)得分均低于正常使用网络大学生,提示网络成瘾倾向大学生及网络成瘾大学生有较低的生存质量,与Ferraro等[13]的研究基本一致。网络成瘾倾向大学生及网络成瘾大学生有较低的掩饰性得分以及较高的神经质得分和精神质得分,与金宇等[14]、Cao等[15]对青少年的研究结论基本一致,国外学者的研究[6-7]也支持这一结论。提示网络成瘾倾向大学生及网络成瘾大学生在人格特征方面与正常使用网络大学生存在差异。

根据艾森克人格理论,神经质维度得分高的人容易焦虑、担忧,常郁郁不乐,忧心忡忡,有强烈的情绪反应;精神质维度得分高的人具有性格孤僻,对他人漠不关心,不近人情,与人不友好的特点,具备这些人格特征基础的人群正性情感体验都较低,容易在虚幻的世界中寻求自我,因而也易于沉溺于网络之中[16-17]。Kim等[6]研究沉溺于在线网络游戏青年的人格特征,表明具有攻击和自恋性人格特征及自我控制力低的青年容易沉溺于在线网络游戏。neimz等[18]的研究表明,沉溺于互联网的学生容易出现社会、人际关系方面的问题,具有较低的自尊和较强的社交性去抑制(sociallydisinhabited)。张翠红等[4]用SCL-90量表比较正常使用网络大学生与网络成瘾大学生的心理健康状况,也显示网络成瘾倾向大学生有较多的心理问题。可见,神经质、精神质维度分高的学生有较低的生存质量,也易于沉溺于网络,进一步降低其生存质量。研究还显示,内外倾维度分高的学生有较高的生存质量,可能与内外倾分高的人具有外向性格、爱交际、朋友多的特点,能获得较多的社会支持并有较多的正性情感体验有关[19]。

本研究通过横断面研究发现人格特征对网络使用程度不同大学生的生存质量可能具有直接和间接的影响。但为了建立人格特征与网络使用程度不同大学生生存质量之间的因果关系,需要进一步采用队列研究方法,同时将其他可能相关的因素如个人因素(性别、年龄、学习成绩)、家庭情况(经济状况、教养方式)、学校因素(人文环境)等结合起来进行研究。

参考文献

[1]orleyJ,Kuykenw.Qualityoflifeassessment:internationalperspectives[m].SpringerVerlag,Berlin,1994:36-37.

[2]wHo.thedevelopmentofthewHoqualityoflifeassessmentinstrument[m].Geneva.1993.

[3]朱克京,吴汉荣.大学生网络成瘾的心理社会因素[J].中国心理卫生杂志,2004,18(11):796-798.

[4]张翠红,刘国伟,谢正,等.大学生网络成瘾与人格特征及心理健康状况分析[J].中国心理卫生杂志,2006,20(11):761.

[5]ozcannK,BuzluS.internetuseanditsrelationwiththepsychosocialsituationforasampleofuniversitystudents[J].CyberpsycholBehav,2007,10(6):767-72.

[6]KimeJ,namkoongK,Kut,etal.therelationshipbetweenonlinegameaddictionandaggression,self-controlandnarcissisticpersonalitytraits[J].eurpsychiatry,2008,23(3):212-8.

[7]KoCH,YenJY,ChenCC,etal.tridimensionalpersonalityofadolescentswithinternetaddictionandsubstanceuseexperience[J].CanJpsychiatry,2006,51(14):887-94.

[8]师建国.成瘾医学(第1版)[m].北京:科学出版社,2003,205-206.

[9]陈仲庚.艾森克人格问卷的项目分析[J].心理学报,1983,15(2):211-218.

[10]方积乾.生存质量测定方法及应用[m].北京:北京医科大学出版社,2000,1:118-122.

[11]胡国清,孙振球,黄正南,等.高中生生存质量评定量表的研制与考评[J].中国卫生统计,2002,19(2):71-75.

[12]曾瑾,陈希宁.成都市大、中学生网络成瘾行为的比较研究[J].现代预防医学,2006,33(10):1790-1791.

[13]FerraroG,CaciB,D'amicoa,etal.internetaddictiondisorder:anitalianstudy[J].CyberpsycholBehav,2007,10(2):170-175.

[14]金宇,苏林雁,曹枫林,等.网络过度使用倾向中学生的人格特征[J].中国心理卫生杂志,2007,21(12):832-836.

[15]CaoF,SuL.internetaddictionamongChineseadolescents:prevalenceandpsychologicalfeatures[J].ChildCareHealthDev,2007,33(3):275-81.

[16]郑日昌.大学生心理诊断[m].济南:山东教育出版社.第1版.1996:186-189.

[17]唐洁,孟宪璋.大中学生主观幸福感的比较研究[J].中国临床心理学杂志,2002,(4):316-320.

[18]niemzK,Griffithsm,Banyardp.prevalenceofpathologicalinternetuseamonguniversitystudentsandcorrelationswithself-esteem,theGeneralHealthQuestionnaire(GHQ),anddisinhibition[J].CyberpsycholBehav,2005,8(6):562-570.

卷积神经网络的好处篇9

互联网已经成为人们获取知识和交流信息的重要渠道。为了掌握中学学生对网络的认识和使用情况,随着网络技术的发展。对中学的名学生进行了问卷调查,结果发现网络的发展大大开阔了视野,拓展了知识面,给他学习和生活带来了积极影响,但仍旧尚存一些不可忽视的问题,校园文化还需进一步加强。

一、网络使用问卷调查结果存在问题

互联网作为一种方便、快捷的信息获取手段和通讯交流平台,随着网络信息技术的发展和广泛应用。深深地融入到人们工作、学习和生活中。然而,互联网又是一把“双刃剑”网络建设飞速发展的同时,学生尤其是那些尚不能正确区分是非丑恶的中小学生来说,对网络的认识和使用是否同时得到快速提高呢?网络建设的确给学生的学习和生活带来了极大的便当,极大地影响,促进了学生的学习和生活,但我也不可以盲目乐观的看待网络发展对学生的消极影响,现实中,仍有局部学生还在网络的认识和使用上都有很大不足,所以关注中小学生使用网络的情况十分必要。

河源市紫金县镇上一个比较贫困的农村,据我解。给孩子买台电脑对许多家庭来说是一个不小的负担,因而许多中学生只能是通过去网吧上网,可是网络’这个名词对这些尚处于青春期,缺乏自控力的中学生来说具有很大的吸引力,许多学生因为临时沉溺于网络之中,难以自拔,无心学习,效果直线下降。为了掌握中学学生网络使用情况,对名学生进行了问卷调查,分别来自初一、初二和初三三个年级,调查问卷设计了2个选择题,其中3个多选题,17个单选题。名学生采用无记名方式填写问卷,具有一定的真实性和代表性,本次问卷调查收回份,有效问卷5份,通过对这5份试卷的分析,得到真实和详尽的资料,总体看来,中学学生使用情况有利有弊,但是利大于弊,大部分学生能够有效利用网络资源,但也存在局部问题,网络素质有待提高。

二、网络认识及上网情况

既有它好处也有不好之处,网络是一把双刃剑。究竟青少年对网络认识多少,又是如何认识的上网情况又是如何?这些值得我去关注。

总体来看基本正常。可是由于当地经济条件比较落后,将近有一半的学生都是通过自己接触来认识网络的也有不少同学则是从朋友口中或在书上、杂志上电视上得知网络。学校没有电脑、投影仪等多媒体设备,学生对‘网络’认识十分陌生,甚至不知道‘网络’什么,又有何作用?由图1知道,38%学生经常上网的地方网吧,这是一个相当高的数据,据了解,有不少学生因为迷恋网络经常逃课上课,这是一种不好的现象,学校以及家长需要格外关注这部分分学生,引领他正确使用网络。

将近一半的学生的上网次数选择了一般,逾越一半的学生每周上网次数在1至3次。这很好,说明了大部分同学对上网都能够很好的控制住,不让自己沉溺于网络。缺乏的当地网络仍未得到普及,大约1/4同学没上过网,这点当地学校和政府需要给予支持。

三、网络信息技术的飞速发展。

因其方便、快捷获取信息的功能,生活以及工作中。互联网已经成为人们生活不可缺少的一部分。但使用网络的时间过长,会对网络发生一定的依赖性,由于网络的吸引,使他不使用的情况下经常觉得无聊,所以会不自主的用网络来填补思想空虚,许多学生就是因为迷恋网络无法自拔,最终荒废了学业。那么,当初为何会使用网络,这是一个值得探讨的问题。

28%学生使用网络是因为获取信息,从以上结果可以看出。拓展自己知识面的需要,也在一定水平上证明了网络作为信息交流渠道的重要地位。可是值得注意的将近四成的学生是因为好奇而接触网络,可但我询问他上网主要是做什么时,许多学生都说是玩游戏或聊天交友,而查阅学习资料却只有少部分,这也客观反映了学生在使用过程中存在缺乏,学校和父母应该多加指导。

很大一局部都是借助网络手段来进行的但是网络自身也有不足之处,不可否认的日常生活中我获取信息和进行娱乐、消遣等活动。利大于弊,还是弊大于利呢?学生和家长又是如何看待互联网的

卷积神经网络的好处篇10

一、“打假破网”的形势、分类和特征

(一)“打假破网”的形势

1、卷烟市场现状:①全国卷烟产量与卷烟实际消费量仍存在一定差距;②各地市辖区市场仍存在大量从非法渠道流入的“紧俏卷烟”;③烟草是一种特殊商品,有利润就有犯罪,不法烟贩受利益驱使,仍将长期从事制售假冒卷烟活动。

2、“打假破网”效果:2008年,全市共查处各类卷烟违法案件——起,其中假烟案件——起,5万元以上大要案件——起,经营达省局标准以上的网络案件——起。以假烟案为基数,案件成功经营率为——‰,以5万元以上大要案为基数,案件成功经营率为——%,全市案件经营成功率仍然不高。

3、在打假破网工作中存在的关题。一是案件经营意识缺乏。在日常市场监管中,对发现的违法线索和苗头,耐不住性子,露头就打,查一条收一条,就事论事,简单处理,缺乏深挖细查和案件经营;查处案件就案论案,没有深挖根源、刨根问底,最终造成打掉的窝点多,摧毁的制假网络少,制假分子很容易重新组织进行违法犯罪活动。二是证据收集和保全意识缺乏。随着近年来制售假烟分子反侦察、抗打击能力逐渐增强,由于执法人员没有证据收集和保全意识,造成一些主要证据的遗失、毁灭,有的因为证据不足,当事人拒不承认,最终不了了之,从而使案件流产。三是破网工作经验缺乏。在查处案件时,急于求成,条件不成熟,查处时机把握不准,往往事倍功半。四是专门人才缺乏。缺少打假破网的专门人才,加之基层车辆、通讯、办公设备落后,制约着破网工作的开展。

面对上述“打假破网”的严峻形势,我们要做到“三个必须”和“一个牢固”。即,必须深刻认识到“打假破网”工作的重要性、艰巨性、复杂性、长期性;必须深刻认识到“打假破网”的新形势、新特征和新难点;必须深刻认识到“打假破网”工作的核心就是强化案件经营意识,经营好案件。并要牢固树立“辖区有非法卷烟,就一定有非法卷烟经营网络”的思想。

(二)网络案件的分类和标准

1、网络案件的分类

一类是符合国家局、省局标准的网络案件,这类网络案件既是烟草专卖稽查人员办案质量和水平的最高体现,也是对专卖稽查工作要求的最好体现。另一类是规模在省局网络标准以下的网络案件,这类案件相对规模较小,有的案件案值只有几万元,甚至几千元,涉案人员只有5-6人,甚至2-3人,但不能因为“小”,而否认它是网络案件,只要它具备“网”的特征,就要认真摸查违法卷烟的来源去向,做到追根溯源,努力经营成国家局、省局标准网络案件。

2、网络案件的标准

国家局网络标准:①涉案金额不少于100万元,包括现场查获的实物,以及犯罪嫌疑人供述、证人证言与其他证据(书证、鉴定结论等)能相互印证的非法生产、经营烟草专卖品的货值金额;②非法生产、购进、储存、销售烟草专卖品涉及两个以上(含)环节,或者任一环节的经营场所不少于5个,或者非法运输烟草专卖品的车辆不少于3辆;③逮捕犯罪嫌疑人不少于3个。

省局网络标准:①涉案金额不少于50万元,包括现场查获的实物,以及犯罪嫌疑人供述、证人证言与其他证据(书证、鉴定结论等)能相互印证的非法生产、经营烟草专卖品的货值金额;②非法生产、购进、储存、销售烟草专卖品涉及两个以上(含)环节,或者任一环节的经营场所不少于3个,或者非法运输烟草专卖品的车辆不少于2辆;③逮捕犯罪嫌疑人不少于2个。

(三)“打假破网”工作呈现的主要特征:

1、制售假烟犯罪行为的特点:家族化、组织化、专业化、智能化、网络化、区域化、严密化。

2、新型假烟销售方式:量少次多、勤进快销、委托送货、电子交易、先款后货、电话预约、送货上门。

3、制售假烟行为主要表象:上线供货范围越来越大,假烟包装越来越精细,打码越来越逼真,人员越来越紧凑,组织越来越严密,货物存放地点多、位置偏,窝点呈现出小型化、分散化,一般人货分离,反侦察能力、隐蔽性越来越强。

4、卷烟“打假破网”工作的难点:线索难、经营难、取证难、协作难、追刑难、队伍素质不高,奖励标准不明。

(四)“打假破网”相关人物

在我们“打假破网”案件经营工作中一般关联着七种人,即违法烟贩、烟草专卖行政执法人员、线人、公安人员、检察院人员、法院人员、党委政府人员。通过分析可以看出,“打假破网”案件经营的实质就是后六种人相互沟通、协调、配合共同打击第一种人。根据违法烟贩的特点,违法烟贩可分为地下批发户(跑轮子户),有证的大户,中、小户。一般情况下,他们与后六种人是耗子与猫的关系,但也存在违法烟贩与后六种人相互熟悉,从而影响办案的情况,这一点必须引起办案人员的高度重视,并在办案初期就认真加以解决。只有深刻认识这七种人之间的关系,始终将“人”做为“打假破网”案件经营工作的核心,才能充分发挥卷烟联合打假长效机制的作用,将“网”一破到底。

二、“打假破网”实施步骤

(一)线索来源和线索经营。一要强化线索的经营和分析。线索来源一般主要是群众举报、市场检查、以案追案和专业线人。应参照下表对获取的线索进行认真筛查、汇总、分析、判断,确保不放过任何有价值的线索。二要强化线人的培养和沟通。线人可分为职业线人和辖区市场线人。要积极拓宽线人培养的渠道,动员自己的亲戚、朋友成为自己的线人,并有针对性地将自律小组成员列为线人重点发展对象。平时我们还要与线人多交流(交流经验)、多打气(打消顾虑)、多商量(商量对策)、多指导(指导方法),切实做到及时沟通反馈信息,共同分析、研究、制定下一步打假破网的主攻方向和工作措施。同时,我们还要了解到:①职业线人举报的目的就是为了领取举报奖,这是他们举报的源动力,这就要求我们在案件结案后,要及时兑现举报奖,甚至可以先行垫付一部分举报奖,以免挫伤他们的举报积极性;②辖区市场线人举报的目的并不完全是为了举报奖,有的辖区市场线人法律意识强,具有正义感,一旦他们发现有违反烟草专卖法的行为,就会自觉地举报,举报奖对他们来说只是重要的激励措施,而不是主要的激励措施。三要强化线索经营的量化考核。在日常市场监管中会查到许多小案子,而往往一个小案子背后就隐藏着一个线索。我们应对日常市场监管进行量化考核,要求案件经营成功率达到5-10%,即在100个小案子中要有5-10个有所突破。实践证明,这种对大、中队的量化考核是十分有效和必要的,但是我们也应充分考虑到案件经营的可行性和工作成本,而不是盲目的要求100个小案子就一定要经营出一个大案,同时,也要防止工作不负责,发现可疑线索也不去经营的情况发生。

(二)制定方案。要深入分析梳理出来的案件线索,并以严格查证事实、掌握规律、获取证据、打击涉案人员为目标,制定针对性强和操作性强的“打假破网”方案。“打假破网”方案要根据案件经营工作所处的不同阶段,细分阶段性工作计划,逐步认真实施,确保“打假破网”工作的顺利开展。

(三)侦察经营。一要紧紧围绕经过梳理的案件线索,根据线索所拓展的需要确定调查的工作内容,如:目标人员基本情况及活动规律、交通工具、涉案历史、活动路线、仓储位置环境、上下线关系、经营非法卷烟类别、运输特点、分销特点、资金流向等。二要明确经营案件的调查过程就是掌握违法犯罪事实,获取证据的过程,既是掌握卷烟非法经营网络链的过程也是锁定涉案人员违法犯罪证据链的过程。经营案件侦破前的取证应做到:①经营案件的每一个工作过程都要有详实的书面记录,特别是进入实质性的调查取证阶段,专卖人员在落实每一项工作任务时,对耳闻目睹的有关案件的情形随时间、空间发展变化都要作详实的记录,并且要注重细节。②在经营案件调查过程中,能够及时获取的书证、证人证言及合同、发票、帐册、单据等涉案资料要及时提取,一时难以提取的要注明原因。③要努力使用先进科技器材获取证据,如摄像机、照相机等器材捕捉非法活动的现场证据。④对目标人员、车辆活动路线及非法卷烟储存场地、交易场地要有勘验示意图。⑤在案件收网过程中,除要注重查获的非法卷烟等实物证据外,还要注重对查获现场其它证据的收集。

(四)择时收网

1、收网之前要做到三个定位:

①网络人员定位:对涉及到网络中的所有人员基本特征及作用进行定位。

②非法活动规律定位:对非法网络中的人、财、物及产、购、销、运、存等非法活动规律进行定位。

③分销渠道定位:对网络中非法卷烟的来源及分销渠道进行定位。

2、在经过大量的调查取证和掌握非法卷烟经营网络活动规律的基础上,要选择“锁定犯罪事实、人赃俱获”的破案最佳时机,要通过以下多种方法选择最佳时机,提高经营案件的破案打击成功率。

①直接观察:专案人员直接捕捉到目标人员的较大数量非法卷烟的接货、进出库、分销的时机。

②间接印证:通过目标人员非法经营网络中上下线的关系人员或其他人员可间接印证较大数量非法卷烟的时机。

③线人反映:线人反映目标人员在什么时期会有较大数量非法卷烟的时机。

④假设推断:根据掌握的网络销售规律周期,推断有较大数量非法卷烟的时机。

⑤出现异常:目标人员涉案情况超出已掌握的活动规律,需要立即决断的时机。

3、围绕对涉案所有经营、存储、交接货等场所,线路的控制和涉案人员的控制来制定行动方案。行动方案中要明确每一名参与行动的执法人员的责任以及关于交通、通讯方式、安全措施等方面的要求。并在收网之前的阶段性工作中,要有行动预案,预防出现意外情况,并随着工作的不断深入,逐步调整完善预案,直至形成最终的行动方案。在经营案件的收网之际,要有公安机关参加。

4、收网行动要按照“人赃并获、多点并举”的原则进行,现场行动指挥员要根据行动方案,细分每一个参与人员的职责并落实到具体行动。

①对控制下的非法卷烟经营、储存、运输现场,要迅速清点涉案物品、收集涉案证据,并制作《暂扣物品收据和清单》、《勘验笔录》、《抽样笔录》等文书,由涉案人员、见证人员签字认定。对涉及到查案现场的房屋、车辆、涉案人员等案情相关联的“第三人”,要立即制作指证笔录和辨认笔录。

②对控制下的涉案人员应由参与行动的公安人员切断其通讯联系,讲明政策,要求其配合现场行动。

③对多点现场的清查,各点负责人要向现场行动指挥员及时通报现场清查情况,便于及时沟通信息、处理问题。

(五)及时移送、及时突审

1、经营案件侦破后,对应追究涉案人员刑事责任的案件,要及时将案件移送到公安机关,出具正式《案件移送函》并通报同级检查机关,积极帮助公安机关开展调查取证工作。对经营案件调查取证过程中获取的证据也要及时移交公安机关。

2、要对查获的非法卷烟实物进行质量鉴定和价值认定,要明确及时审理工作的目标、方法和步骤,由公安人员组织力量对涉案人员进行突审。

3、烟草专卖行政执法人员一定要积极参与案件审理等全过程,并注重与公安打交道的技巧,切实做到:一要认识到我们和公安是合作关系,是共同打击卷烟违法犯罪行为的,而不是我们求着公安为我们办案;二要真正做到与公安及时沟通、相互支持、以诚相待;三要不卑不亢,积极主动地全面参与案件经营、择时收网、及时审理等环节的每个过程,并在和公安配合当中要做到及时提醒、及时建议,主动把握办案的方向、甚至把握经营案件的节奏和力度。

(六)检察院、法院的协调督办

案件侦破后我们要与公安机关一道积极走访检察院、法院,充分发挥全国卷烟联合打假长效机制的作用。目前,行政执法与刑事司法相结合的工作已经持续开展8年了,烟草专卖部门与公检法的协作关系也越来越健全了,但仍有些问题不容忽视,一是与公安打假协作机制还需进一步完善;二是检察院的、批捕力度还需进一步加强;三是法院判实刑难度较大。目前社会上流行一种说法:“和谐社会,经济案件能不判实刑的就不判”。如果这个说法真的成立的话将直接影响甚至挫伤公安、检察院和我们的积极性,更会极大地削弱打击违法烟贩、净化卷烟市场的震慑力。对于这个问题,我们一定要高度重视,要和法院多宣传、多沟通。

三、“打假破网”案件经营应注意的问题

(一)加强专卖队伍建设。在“打假破网”案件经营工作中,要按照“人尽其才、物尽其用”的原则,培养信息收集、线索分析、实地勘察、调查取证、现场行动、案件办理等方面的能手,为经营案件的侦破提供人员力量保障。一是“打假破网”工作要想达到良好的效果,专卖人员必须具备“政治合格、作风过硬、业务精湛、纪律严明、执法公正、服务优良、快速反应、机动作战”三十二字的基本素质。二是要建立健全对稽查支队和各大、中队经营案件的评价考核机制,要明确县级局专卖工作搞的好不好主要取决于专卖局长和专卖办主任,大、中队专卖工作搞的好不好主要取决于大、中队长和1-2个专卖骨干。三是“打假破网”工作是一项系统工程,面临的难点多、困难大,要求专卖管理人员要具备责任意识、创新意识和拼搏精神。责任意识就是要求每一个专卖管理人员要做到守土有责,要明白自己身上所担负的神圣职责,要加强日常市场监管,认真分析卷烟销售异动,为卷烟“打假破网”工作提供更多有价值的线索。创新意识就是要求每一个专卖管理人员要打破定向思维的障碍,将好的思路通过实践去验证,不断探索、总结出更多更好的“打假破网”案件经营方法。拼搏精神就是要求每一个专卖管理人员要拿出特别能吃苦,特别能战斗和敢“啃”硬骨头的作风,持续深入地开展“打假破网”案件经营工作。

(二)正确面对经营案件过程中经常出现的几个问题。在“打假破网”案件经营过程中时常出现线索突然中断;人际关系复杂,抵制不了说情;工作失误,延误、错失战机;案件经营成功率不高等问题,其实,出现这样几个问题是很正常的,关键是要在这几个问题出现以后,要及时查找原因,理顺工作思路,改进工作方法,坚定信心,重头再来。目前,我们已与违法烟贩进入了拼智力、拼耐力、拼实力的“三拼”阶段,两军相对,狭路相逢勇者胜,我们要勇敢面对“打假破网”工作的一切难点,甚至失败,争取“打假破网”工作的全面胜利。

(三)把握及时查处和适度案件经营的分寸。要充分认识到及时破案打击与适时破案打击都是市场控制的方法,一个是讲求市场面上的控制,一个是讲求影响市场深层次问题的控制,在实践中不能将其绝对化。采用何种方法,主要要视情报线索的价值、条件和方向来做出正确的判断。只有把两种方法有机结合,才能有效的控制市场,提高打击的威慑力。

四、“打假破网”案件经营的几点思考

(一)转变观念,创新机制是关键。当前“打假破网”案件经营工作中比较突出的一个问题就是部分专卖人员思想观念陈旧,案件经营、协作机制落后,这极大地制约了我们“打假破网”案件经营工作的有效发展。为不断适应卷烟“打假破网”工作的新形势、新特点,我们只有不断转变观念,创新机制,做到用新观念指导工作,用新机制解决问题,促进“打假破网”各项工作扎实有效开展,才能确保“打假破网”案件经营工作取得更大进展。

(二)精心组织,善于经营是基础。每一个顺利侦破的网络案件,背后都有一个组织能力强、善于经营案件的团队。在“打假破网”工作的全过程,应严格参照本文所叙述的“打假破网”实施步骤的有关要求,精心组织,制定严密的实施方案,选择最佳收网时机,并积极与检查院、法院协调,力争在“判实刑”方面取得突破。