首页 理论教育CNN的基本原理详解

CNN的基本原理详解

【摘要】:2015年,CNN模型在ImageNet数据集上的性能第一次超过了人类[126]。图6-1LeNet-5模型的结构

Yann LeCun等在1989年最早提出了基于梯度反向传播学习的CNN算法[120],并成功将其应用于手写数字识别任务中。1998年,Yann LeCun提出了LeNet-5模型[121],其结构如图6-1所示,并且利用反向传播方法对卷积网络进行有监督训练,LeNet-5模型被成功应用于文档字符的识别。

但是,LeNet-5模型存在一些缺陷:首先,LeNet-5模型的应用局限于尺度较小的字符数据集,难以满足大型数据集和更加复杂的应用需求;其次,LeNet-5模型的结构没有很好地解决过拟合问题,其泛化能力较弱。因此,由于早期缺少大规模的训练数据集,并且计算机的运算能力有限,很难对复杂的CNN模型进行充分训练,在其后的一段时间内CNN技术的发展比较缓慢。随着大规模ImageNet图像数据集的公开发布和硬件平台计算能力的快速提升,2012年在ImageNet大规模视觉识别挑战赛(ImageNet Largescale Visual Recognition Challenge, ILSVRC)上,Geoffery E. Himon带领的研究团队凭借CNN模型AlexNet [122]以超过第二名近12%的准确率的巨大优势一举夺得该竞赛图像分类的冠军,展示了CNN模型强大的特征学习能力和表达能力,引发学术界和工业界的广泛关注,从此掀起了CNN模型在图像识别领域的研究热潮。在此后的几年中,以ILSVRC竞赛作为视觉识别系统性能测试的竞赛平台,研究人员又提出了一系列更高性能的CNN模型,如GoogLeNet[123]、VGGNet[124]、ResNet[125]等,这些更高性能的CNN模型进一步推动了图像识技术的发展。2015年,CNN模型在ImageNet数据集上的性能(预测错误率4.94%)第一次超过了人类(5.1%)[126]

图6-1 LeNet-5模型的结构