(1) Selective Search를 사용하여 약 2000개의 region proposals를 생성합니다. (2) 이미지를 CNN에 통과시켜 feature map을 얻습니다. (3) 각 region proposal로 경계가 제한된 feature map을 SPP layer에 전달합니다. (4) SPP layer를 적용하여 얻은 고정된 벡터 크기(representation)를 FC layer에 전달합니다. (5) SVM으로 카테고리를 분류합니다. (6) Bounding box regression으로 bounding box 크기를 조정하고 non-maximum suppression을 사용하여 최종 bounding box를 선별합니다.
위의 것은 R-CNN, 아래는 SPPNet
쉽게 말하자면 R-CNN은 지역 특성을 뽑아 전부를 CNN에 통과시켜 분류를 하였다면
SPPNet은 지역특성을 뽑아놓고 이미지 한장만 CNN에 통과시켜 feature map을 만들고
미리 뽑은 지역특성에 해당하는 부분만 feature map 의 sub feature map을 뽑아내어 분류를 진행한다.(SVM)