Deeeplearning模型-CNN-ResNet
条评论ResNet ImageNet LSVRC-2015竞赛冠军,152层残差网络结构,将Top5错误率降到3.57,已经超过人眼水平,此后ImageNet大赛不再举办。解决了梯度消失的问题。
论文:Deep Residual Learning for Image Recognition
论文想解决什么问题
ResNet针对的是一个非常关键的训练现象:网络层数并不是简单越深越好。直接堆叠更多层后,模型往往会出现退化问题,也就是训练误差和测试误差反而一起变差。
核心创新
- 提出残差学习,把目标映射写成
F(x) + x的形式。 - 引入shortcut connection,让输入信息可以跨层直接传递。
- 在更深网络中使用瓶颈结构,使上百层网络在计算上仍然可接受。
结构理解
残差块可以理解为:主分支学习“在已有特征基础上还要补什么”,捷径分支则把原始信息尽量稳定地传到后面。
这种设计的好处是,即使某几层学不到更优表示,也至少更容易退化为近似恒等映射,从而降低深层网络优化难度。
实验结果怎么看
论文中的152层ResNet在ImageNet上取得了非常强的结果,而且作者特别指出,这个网络虽然比VGG更深,但复杂度反而更低。更重要的是,ResNet在检测和分割等下游任务上也表现优异,因此很快成为视觉领域最重要的通用骨干网络之一。
简单理解与局限
我对ResNet的理解是,它改变的不只是某个具体模型,而是大家设计深层网络的方式。从“能不能继续堆深”变成了“怎样稳定地堆深”。
它的局限在于,残差连接并不会自动解决所有问题,计算量依然不小,但作为现代视觉网络的基础结构,它的影响力非常深远。