VGG为ImageNet LSVRC-2014竞赛亚军,VGG结构简单,应用性强,广受喜爱。VGG-16、VGG-19效果较好。

论文:Very Deep Convolutional Networks for Large-scale Image Recognition

Architecture of VGG

论文想回答什么问题

VGG这篇论文关心的是一个非常核心的问题:卷积网络如果继续加深,性能是否还能稳定提升?作者给出的答案是肯定的,而且他们用一种极其统一的结构验证了这件事。

核心创新

  • 用连续的小卷积核 3×3 代替大卷积核,保持感受野的同时减少参数量。
  • 在统一结构模板下系统比较不同深度模型,展示深度本身的价值。
  • 证明深层卷积特征不仅适合ImageNet分类,也适合迁移到其他视觉任务。

结构怎么理解

VGG的设计哲学很整齐:反复堆叠 3×3 卷积,再通过池化逐步降低分辨率,最后接全连接层。
连续两个或三个 3×3 卷积,可以在不显著增加参数的前提下获得更大的有效感受野,同时引入更多非线性变换,因此比直接用大卷积核更灵活。

为什么它影响这么大

论文结果说明,16层和19层这类更深的网络在ImageNet上能显著优于较浅网络。VGG后来长期被用作分类、检测、分割任务的基础backbone,本质原因不是它最省算力,而是它结构简单、规律统一、迁移性很强。

简单理解与局限

如果说AlexNet证明了“深度学习能打”,那VGG证明的是“深度继续增加,性能确实还能提升”。
它的缺点也很直接:参数量和计算量都比较大,尤其全连接层负担很重,因此今天更多把VGG作为一种经典结构范式,而不是部署时最优的工程模型。