LeNet-5是Yann LeCun在1998年提出的多层神经网络,用于解决手写数字识别的,并证明在当时该识别方法优于其他识别方法;自此,CNN的模型基本都基于该架构:卷积层、池化层、全连接层。

论文:Gradient-Based Learning Applied to Document Recognition

Architecture of LeNet-5

输入

输入32*32大小单通道图像

卷积-池化

  • Layer1:
    • 卷积:使用5×5的卷积核,对输入图像卷积,形成6个特征图谱;每个特征图谱使用一个卷积核,卷积核25个参数加一个偏置,一个特征图有26个参数;共形成6个特征图谱,第一层卷积共26×6=156个训练参数;使用5×5的卷积核,卷积后的特征图谱大小为28×28。
    • 池化:下采样,2×2的单位,使用平均池化。得到6个14×14的特征图谱。
  • Layer2:
    • 卷积:继续使用5×5的卷积核进行卷积,形成16个特征图谱;卷积后的特征图谱大小为10×10。
    • 池化:下采样,2×2的单位,使用平均池化。得到16个5×5的特征图谱。
  • Layer3:
    • 全连接层:将前一层的所有特征值全部卷积,然后加上偏置量进行激活,因为特征图的尺寸是5×5的,卷积核也是5×5的,得到的是一个1×1的输出;使用120个卷积核,就可以得到120个特征图。

全连接层

  • Layer4:
    • 全连接层:上一层得到1×1×120的新特征图,下一层,需要对图片进行分类,一共有84个,包括所有的数字,字母(英文大小写)和常见的标点符号。该层将120个像素每个像素乘以它对应的权重再加上一个偏置量,经过激活函数处理后得到一个神经元,一共有84个神经元,所以这一层的训练参数和连接数为(120+1)×84=10164。
  • Layer5:
    • Output层-全连接层:输出层由欧几里得径向基函数核RBF构成。