起点作文网

卷积神经网络总结(收集3篇)

时间: 2025-12-17 栏目:实用范文

卷积神经网络总结范文篇1

(1.北京邮电大学计算机学院,北京100876;2.河北省霸州市第四小学,河北霸州065700)

摘要:深度学习是智能科学与技术领域的最新突破性进展,卷积神经网络是其中一个代表性工作。文章探讨如何开展卷积神经网络的教学工作,包括教学内容的安排和教学内容之外的考虑两个方面,旨在将智能科学与技术的这一最新成果介绍给学生,使他们能较早接触学科前沿,提升学习兴趣,激发创新动力。同时,也为广大教师提供一些教学的思路和方法。

关键词:智能科学与技术;深度学习;卷积神经网络;教学建议

第一作者简介:李睿凡,男,讲师,研究方向为多模态智能信息处理与深度学习,rfli@bupt.edu.cn。

1背景

当前,智能科学与技术在国家经济与社会需求中的作用愈发重要。2015年3月2日,百度公司首席执行官李彦宏在两会提案中建议设立“中国大脑”计划;智能家居、智慧城市等早已经渗入普通大众的生活中。从大学教育的角度,智能科学与技术专业是培养“智能”人才的重要基地,智能专业一级学科的设置也迫在眉睫。传统的人工智能专业课程主要包括人工智能导论、模式分析、机器学习、数据挖掘等,其中通常涉及前向神经网络的教学内容。但近些年,深度神经网络的发展使我们从事智能科学与技术一线教学和科研工作的教师面临新的机遇与挑战。特别值得注意的是,深度学习中的卷积神经网络的发展是深度学习中的一个亮点。卷积神经网络在图像识别和语音语言处理等人工智能的众多领域都取得了突破。

2013年,我们提出将深度学习引入智能科学与技术类专业课教学的建议,包括其必要性和可行性以及初步的实施建议。2014年,我们又探讨在本科生和研究生课程中开展深度学习的教学实施方案‘卅。在科研与教学的实践中,我们体会到卷积神经网络是深度学习中非常重要的内容,非常有必要将精彩的卷积神经网络基本内容带入课堂。

2卷积神经网络背景

2006年之前,人工神经网络的发展大致可以分为两个时期。1943年,McCulloch和Pitts提出了最早的人工神经元,这种神经元具有学习的能力,这是人工神经网络的开端,这一时期沿着单个神经元研究其学习算法。1969年,Minsky和Papert分析了感知器神经网络模型的局限性,这使人工神经网络的研究很快暗淡下来。80年代中期,诺贝尔奖得主JohnHopfield提出了Hopfield神经网络模型,这种Recurrent神经网络具有的动态性有可能用于解决复杂的问题。同一时期,多层前向神经网络的反向传播算法(Back-propagation)也被重新发现。这两个工作使人工神经网络得到重生。这时,人工神经网络已经成为人工智能的一个重要组成部分,但随后的研究由于更多层神经网络学习的失效而再次陷入低潮。文献[5]对神经网络的研究给出了全面的总结。

2006年,神经网络领域的大师GeoffreyHinton教授与其博士生Salakhutdinov博士发表了题为ReducingtheDimensionalityofDatawithNeuralNetworks的论文。该文提出一种学习多层神经网络的方法,并将这种具有多层结构学习的方法命名为深度学习(DeepLearning)。以深层神经网络为代表的深度学习登上学术与工业的舞台,其中一个重要因素是Hinton教授提出的逐层预训练神经网络方法治愈了训练多层神经网络的一个致命伤。

2012年,Hinton教授的研究团队参加了斯坦福大学Fei-FeiLi教授等组织的ImageNetILSVRC大规模图像识别评测任务。该任务包括120万张高分辨率图片,共包含1000个类比。Hinton教授团队使用了多层卷积神经网络结构,取得了突破性进展,将识别错误率从26.2%降低到15.3%。这一比赛结果破除了计算机视觉领域的大师、美国加州大学伯克利分校的JitendraMalik教授对深度学习大规模实际应用的质疑。同时,它也加速了神经网络深度学习从学术研究跃人工业应用,为神经网络打开了更为广阔的前景。

在最近5年的多个国际顶尖学术会议(AAAI,ICML、NIPS,CVPR,MM)都有涉及深度学习的主题会议或研讨会。工业界也发生了一系列事件。2014年5月,斯坦福大学的AndrewNg加盟公司并领导深度学习的研究与应用。2014年8月,卷积神经网络的主要发明者YannLeCun教授加盟Facebook公司。2015年3月16日,马云在德国CeBIT博览会上为嘉宾从淘宝网购买1948年汉诺威纪念邮票,演示了以多层神经网络为核心技术的蚂蚁金服的SmiletoPay扫脸技术。国际知名的互联网公司都参与到深度学习的学术研究和技术应用中。

3教学内容编排

在文献[4]中,我们已经讨论了关于研究生深度学习课程教学的内容,但对卷积神经网络的内容强调得不够充分。因此,我们建议如果条件容许,可以扩大卷积神经网络教学内容,甚至采用专题教学的形式。同时,我们认为研究生阶段的教学目标主要是使学生掌握基本而深入的知识,从而对感兴趣的领域提出研究建议,并采取合理的方法完成研究内容并撰写研究报告。

基于以上目标,研究生课程(含36学时)主要涵盖3部分内容:机器学习基础、神经网络基础、神经网络研究论文讨论。第一部分的机器学习基础知识部分(6学时)主要让学生从零起点顺利过度到这门课程。教师讲解机器学习的基本目标和方法、线性分类器和支持向量机、主成分分析和线性判别分析。第二部分的神经网络知识部分(8学时)主要包括前向神经网络及后传算法和卷积神经网络、卷积网络结构的卷积层和抽取层、卷积神经网络的理解和可视化。考虑到神经网络的实践性,我们特别安排神经网络的优化和调试内容。第三部分主要是学生阅读讲解和师生互动的论文研讨部分。此部分进一步划分为4个单元,主要包括受限波尔兹曼机及其扩展、自动编码器及其扩展、多模态和计算机视觉的典型应用。

除理论教学环节之外,该课程强调学以致用。因此,我们给出两部分内容:一个是基本实验项目,主要包括基本的分类器的使用,如最近邻分类器、支持向量机分类器等,重点强调卷积神经网络的训练和应用实验;另一个是强调如何将卷积神经网络方法用于解决实际问题。前两部分讲解完成之后,教师提出具体的研究建议,安排2~3名学生形成一个小组,请他们自己提出可能的讲解问题,确定一个研究主题,写出研究建议书,完成研究,写出研究报告,并在课程的最后,分小组汇报研究情况。

4教学内容之外的考虑

除教学内容之外,还有一些值得考虑的与卷积神经网络相关的问题。我们主要考虑了如下3个方面。

(1)兴趣是最好的老师,对于卷积神经网络的教学也不例外。如何激发学生的兴趣是教师备课时应该考虑的一个问题。笔者的思路是在课堂教学中引入有趣的相关话题。近期的两个事件令人瞩目,可以用来引导学生。其一,2015年3月16日,在德国举办的汉诺威消费电子、信息及通信博览会(CeBIT)上,阿里巴巴集团董事局主席马云先生为嘉宾从淘宝网购买了1948年汉诺威纪念邮票,演示了蚂蚁金服和Face++Financial的微笑支付(SmiletoPay)扫脸技术,这项技术改变了传统的采用密码认证的购物方式;其二,2015年3月,斯坦福大学人工智能实验室主任Fei-FeiLi,在TED大会上作题为“当今计算机科学家如何教计算机理解图像”的主题报告,她的报告试图传达一个信息:人工智能和计算机视觉的重要前沿进展之一。这两个事件,一个是信息产业界的大事记,另一个是技术思想普及教育的大事记。两者都涉及深度学习中的卷积神经网络,说明卷积神经网络无论在产业应用和科学前沿都吸引了广大的技术实践者和科学探索者。

(2)教学过程是教师与学生沟通以建立共同语言的过程。教师如何使用恰当的生活语言辅助专业技术的交流,能够很好地起到寓教于乐的作用。笔者在上一节已经谈及卷积神经网络的引子事件,对于以上两个事件的描述,可以用时下的网络用语“高富帅”和“白富美”来夸张地形容事件中的两位主角,以学生的语言给出卷积神经网络发展历程上的有趣描述,能够容易建立师生的共同语言。

(3)调动学生的好奇心能有效地让学生进入良好的学习状态,从而产生内在驱动力。通过以两个事件为引子的课堂导人,学生产生兴趣,对于卷积神经网络,可以使用LeNet的神经网络结构图,标注数字和卷积的

关键词等信息。这样的绘图必然让学生产生好奇心,让他们期望明白其中的含义,也很想搞清楚这样复杂的网络是如何工作并取得竞赛排名第一的结果。另外一个有效的刺激是课程的评分机制,在卷积神经网络的工作中,应当重点对研究报告部分予以侧重。

5结语

卷积神经网络是深度学习中备受瞩目的研究主题,卷积神经网络更为细致的内容将在进一步的教学工作中实践,也需要更深入的研究。需要注意的是,深度学习还处于发展状态,内容仍然不够成熟,这给教学工作者提出了更高的要求。

参考文献:

[1]钟义信,传播创新成果,服务社会需求:论核心课程的设计[J].计算机教育,2014(19):22-25.

[2]钟义信,高等人工智能:人工智能理论的新阶段[J]计算机教育,2012(9):6-11.

[3]李睿凡,王小捷,钟义信,引入深度学习的人工智能类课程[J]计算机教育,2013(19):61-64.

[4]李睿凡,王小捷,钟义信.探索神经网络深度学习的教学[J]计算机教育,2014(19):77-79.

[5]HaykinS.Neuralnetworksandlearningmachines[M].NewYork:PrenticeHall,2008.

[6]HintonG,SalakhutdinovR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science,2006,5786(313):504-507.

[7]KrizhevskyA,SutskeverI,HintonG.lmageNetclassificationwithdeepconvolutionalneuralnetworks[C].LakeTahoe:NeuralInformationProcessingSystems(NIPS)Foundation,2012:1106-1114.

[8]BengioY.LeamingdeeparchitecturesforAI[J].FoundationsandTrendsinMachineLearning,2009,2(1):1-127.

[9]ArelI,RoseDC,KarnowskiTP.DeepmachineLearning:anewfrontierinartificialintelligenceresearch[J].IEEEComputationalIntelligenceMagazine,2010,5(4):13-18.

卷积神经网络总结范文篇2

关键词:列车车号;车号识别;卷积神经网络;LeNet?5

中图分类号:TN911.73?34;TP391文献标识码:A文章编号:1004?373X(2016)13?0063?04

Abstract:Forthecharacterrecognitionoffreighttrainlicense,theimprovedrecognitionmethodbasedonconvolutionalneuralnetworkLeNet?5isproposed.Consideringthestructuralfeaturesofthehierarchicalconvolutionalneuralnetworkandlocalfield,theparametersofquantityandsizeofeachlayerfeaturepatterninthenetworkwereimprovedcorrespondinglytoformthenewnetworkmodelsuitableforthefreighttrainlicenserecognition.Theexperimentalresultsshowthattheproposedmethodhasstrongrobustnesstosolvethelicensebreakageandstain,andhighrecognitionrate,whichprovidesaguaranteefortheaccuracyoftheentirelicenserecognitionsystem.

Keywords:trainlicense;licenserecognition;convolutionalneuralnetwork;LeNet?5

0引言

目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。

为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。

1LeNet?5的改进

卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。

以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:

(1)将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。

(2)省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。

(3)简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。

(4)输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。

之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。

2改进后的网络对列车车号字符的识别

车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。

由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。

本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(MisclassificationRate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。

训练过程中的误分类率曲线

而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。

在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10000幅车号数字字符图像用来训练,5000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。

3针对车型号字母识别而改进的神经网络及其结果

货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。

3.1常用列车车型的识别

在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:

(1)卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。

(2)卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。

(3)卷积层C5的特征图个数由120个减少为80个。

(4)输出分类的数目由10个减少为6个。

另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。

表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。

相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。

实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。

图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。

3.2全车型识别

经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。

训练过程中的误分类率曲线

针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:

(1)卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。

(2)卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。

(3)卷积层C5的特征图个数由120个增加至240个。

(4)输出层神经元的个数由10个增加至32个。

其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。

与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。

由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。

网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。

为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4000幅,测试图像库包含字符图像2000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。

4结语

本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。

参考文献

[1]宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.

[2]LUS,CHENBM,KOCC.Perspectiverectificationofdocumentimagesusingfuzzysetandmorphologicaloperations[J].Imageandvisioncomputing,2005,23(5):541?553.

[3]SHAHP,KARAMCHANDANIS,NADKART,etal.OCR?basedchassis?numberrecognitionusingartificialneuralnetworks[C]//Proceedingsof2009IEEEInternationalConferenceonVehicularElectronicsandSafety(ICVES).[S.l.]:IEEE,2009:31?34.

[4]CHEND,BOURLARDH,THIRANJP.TextidentificationincomplexbackgroundusingSVM[C]//Proceedingsof2001IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2001:621?626.

[5]LECUNY,BOTTOUL,BENGIOY,etal.Gradient?basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278?2324.

[6]LECUNYA,BOTTOUL,ORRGB,etal.Efficientbackprop[M]//Anon.Neuralnetworks:tricksofthetrade.Berlin:SpringerBerlinHeidelberg,1998:9?50.

卷积神经网络总结范文篇3

关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别

中图分类号:TP391.41文献标志码:A英文标题

0引言

对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。

Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(IndependentComponentAnalysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。

除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。

针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScaleConvolutionalNeuralNetwork,MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(SparseAutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在整理图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。

4仿真实验及分析

本文使用STL10公开数据集以及从全色波段的QuiekBird遥感卫星和GoogleEarth软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为64×64像素的RGB图。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。

4.1算法识别率对比测试

MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(maxpooling)。

按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。

从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。

从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。

4.2算法鲁棒性实验

为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。

图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。

从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。

另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。

5结语

本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。

参考文献:

[1]

ALEXK,ILYAS,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[EB/OL].[20150210].http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DANC,UELIM,JURGENS.Multicolumndeepneuralnetworksforimageclassification[C]//Proceedingsofthe2012IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE,2012:3642-3649.

[3]

KAVUKCUOGLUK,SERMANETP,BOUREAUY,etal.Learningconvolutionalfeaturehierarchiesforvisualrecognition[EB/OL].[20150210].http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLUK,RABZATOM,FERGUSR,etal.Learninginvariantfeaturesthroughtopographicfiltermaps[C]//IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE,2009:1605-1612.

[5]

COATESA,LEEH,NGAY.Ananalysisofsinglelayernetworksinunsupervisedfeaturelearning[C]//Proceedingsofthe14thInternationalConferenceonArtificialIntelligenceandStatistics.Piscataway,NJ:IEEE,2011:215-223.

[6]

ZEILERMD,FERGUS,R.Visualizingandunderstandingconvolutionalneuralnetworks[C]//ECCV2014:Proceedingsofthe13thEuropeanConferenceonComputerVision.Berlin:Springer,2014:818-833.

[7]

BALDIP,LUZHIQIN.Complexvaluedautoencoders[J].NeuralNetworks,2012,33:136-147.

[8]

HAYKINS.神经网络与机器学习[M].3版.申富饶,徐烨,郑俊,译.北京:机械工业出版社,2011:81-89.(HAYKINS.NeuralNetworksandLearningMachines[M].3rded.SHENFR,XUY,ZHENGJ,translated.Beijing:ChinaMachinePress,2011:81-89.

[10]

LECUNY,BOTTOUL,BENGIOY.Gradientbasedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.

[11]

DERMANETP,LECUNY.Trafficsignrecognitionwithmultiscaleconvolutionalnetworks[C]//Proceedingsofthe2011InternationalJointConferenceonNeuralNetworks.Piscataway,NJ:IEEE,2011:2809-2813.

[12]

GONGYC,WANGLW,GUORQ,etal.Multiscaleorderlesspoolingofdeepconvolutionalactivationfeatures[C]//ECCV2014:Proceedingsofthe13thEuropeanConferenceonComputerVision.Piscataway,NJ:IEEE,2014:392-407.

[13]

JARRETTK,KAVUKCUOGLUK,RANZATOM,etal.Whatisthebestmultistageforobjectarchitecture?[C]//Proceedingsofthe2009IEEE12thInternationalConferenceonComputerVision.Piscataway,NJ:IEEE,2009:2146-2153.

[14]

BOUVRIEJ.Notesonconvolutionalneuralnetworks[EB/OL].[20150210].http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61372167,61379104).

ZHANGWenda,bornin1991,M.S.candidate.Hisresearchinterestsincludepatternrecognitionandartificialintelligence.

    【实用范文】栏目
  • 上一篇:嘿,我这个人作文(收集9篇)
  • 下一篇:教师述职报告(10篇)
  • 相关文章

    推荐文章

    相关栏目