SPPNet, Fast R-CNN, Faster R-CNN

Untitled

RCNN은 2000개의 bounding box를 뽑고 2000개를 모두 Convolution 결과에 대해 분류를 진행한다.
한 이미지에 여러번의 CNN 연산 * 2000 만큼의 시간 소요 어떻게 줄여볼까?

한 이미지에 대하여 한번의 CNN을 돌리자! SPP

Untitled

SPP 동작 과정

(1) Selective Search를 사용하여 약 2000개의 region proposals를 생성합니다. (2) 이미지를 CNN에 통과시켜 feature map을 얻습니다. (3) 각 region proposal로 경계가 제한된 feature map을 SPP layer에 전달합니다. (4) SPP layer를 적용하여 얻은 고정된 벡터 크기(representation)를 FC layer에 전달합니다. (5) SVM으로 카테고리를 분류합니다. (6) Bounding box regression으로 bounding box 크기를 조정하고 non-maximum suppression을 사용하여 최종 bounding box를 선별합니다.

위의 것은 R-CNN, 아래는 SPPNet

R-CNN vs SPPNet

쉽게 말하자면 R-CNN은 지역 특성을 뽑아 전부를 CNN에 통과시켜 분류를 하였다면

SPPNet은 지역특성을 뽑아놓고 이미지 한장만 CNN에 통과시켜 feature map을 만들고

미리 뽑은 지역특성에 해당하는 부분만 feature map 의 sub feature map을 뽑아내어 분류를 진행한다.(SVM)