AlexNet是2012年提出的CNN模型, ImageNet LSVRC-2010竞赛冠军,具有划时代意义,在次之前主要用传统机器学习方法SVM,此后,深度学习发展迅速。AlexNet网络结构先卷积,然后全连接。有60 million个参数,65 thousand个神经元,五层卷积,三层全连接网络,输出层为1000通道的softmax。利用了GPU进行计算,大大提高了运算效率。

论文:ImageNet Classification with Deep Convolutional Neural Networks

Architecture of AlexNet

论文想解决什么问题

2012年前后,大规模图像分类主要还是依赖手工特征加浅层分类器。AlexNet这篇论文最重要的地方,在于它第一次非常有说服力地证明了:深层卷积网络在大数据和GPU支持下,可以显著超过传统视觉方法。

核心创新

  • 使用更深的卷积网络直接学习分层视觉特征。
  • 使用ReLU激活函数,加快训练速度。
  • 在全连接层使用dropout,缓解过拟合。
  • 配合随机裁剪、翻转、颜色扰动等数据增强,以及双GPU训练,让大模型训练变得可行。

结构理解

AlexNet整体是“5层卷积 + 3层全连接”的早期经典CNN结构。前面的卷积层负责提取边缘、纹理、局部形状和更高层语义信息,后面的全连接层负责完成分类决策。
这篇论文真正建立起来的,是后来许多视觉模型反复沿用的基本范式:让网络自己学习特征,而不是手工设计特征。

实验结果怎么看

论文在ILSVRC 2012上把top-5错误率降到了18.9%,相比当时其他方案有非常明显的提升。这一结果几乎可以视作深度学习在计算机视觉大规模落地的标志性事件。

简单理解与局限

AlexNet的价值更多在于“开时代”,而不只是某几个具体技巧。后来的VGG、GoogLeNet、ResNet虽然在结构上继续大幅演进,但很多训练经验和网络设计思路都能追溯到AlexNet。
它的不足也很明显:参数量大、全连接层很重,前面的大卷积核设计也比较粗糙,所以今天更多把它看成一个里程碑式模型。