Fast R-CNN基于R-CNN和SPPNets,进行模型改进。不需要再生成2000个候选区域,只需要特征提取一次,使用selective search生成2000个区域候选框,再CNN卷积,Rol池化形成特定长度特征向量,送入全连接FC,Softmax,输出定位信息。速度较R-CNN有提升,但依旧慢。

论文:Fast R-CNN

论文想解决什么问题

Fast R-CNN针对的是R-CNN过于繁琐和低效的问题。R-CNN需要先生成候选框,再对每个候选框单独跑一次CNN,训练和推理都很慢,流程也比较割裂。

核心创新

  • 整张图只做一次卷积特征提取,不再对每个候选框重复跑CNN。
  • 使用RoI Pooling把不同大小的候选区域映射成固定长度特征。
  • 采用分类和边框回归联合的多任务损失,训练流程更统一。

结构理解

Fast R-CNN的关键变化是“先提整图特征,再从特征图上裁RoI”。这一步极大减少了重复计算,也让训练从原来分阶段流程变成更接近端到端的方式。
所以它相比R-CNN真正提升的,不只是速度,而是整个检测框架的组织方式。

实验结果怎么看

论文中Fast R-CNN相比R-CNN和SPPnet,在mAP和训练测试速度上都有明显提升。它证明了共享卷积特征这条路线是对的,也为后面的Faster R-CNN打下了结构基础。

简单理解与局限

我对Fast R-CNN的理解是:它是R-CNN家族从“能用”走向“更像现代检测器”的关键过渡版本。
它最大的局限也很明确,Selective Search仍然在外部生成候选框,这一步依旧很慢,所以整体系统还不够真正端到端。