ResNet ImageNet LSVRC-2015竞赛冠军,152层残差网络结构,将Top5错误率降到3.57,已经超过人眼水平,此后ImageNet大赛不再举办。解决了梯度消失的问题。

论文:Deep Residual Learning for Image Recognition

Architecture of VGG & ResNet

论文想解决什么问题

ResNet针对的是一个非常关键的训练现象:网络层数并不是简单越深越好。直接堆叠更多层后,模型往往会出现退化问题,也就是训练误差和测试误差反而一起变差。

核心创新

  • 提出残差学习,把目标映射写成 F(x) + x 的形式。
  • 引入shortcut connection,让输入信息可以跨层直接传递。
  • 在更深网络中使用瓶颈结构,使上百层网络在计算上仍然可接受。

结构理解

残差块可以理解为:主分支学习“在已有特征基础上还要补什么”,捷径分支则把原始信息尽量稳定地传到后面。
这种设计的好处是,即使某几层学不到更优表示,也至少更容易退化为近似恒等映射,从而降低深层网络优化难度。

实验结果怎么看

论文中的152层ResNet在ImageNet上取得了非常强的结果,而且作者特别指出,这个网络虽然比VGG更深,但复杂度反而更低。更重要的是,ResNet在检测和分割等下游任务上也表现优异,因此很快成为视觉领域最重要的通用骨干网络之一。

简单理解与局限

我对ResNet的理解是,它改变的不只是某个具体模型,而是大家设计深层网络的方式。从“能不能继续堆深”变成了“怎样稳定地堆深”。
它的局限在于,残差连接并不会自动解决所有问题,计算量依然不小,但作为现代视觉网络的基础结构,它的影响力非常深远。