Abstract
이미지에서의 텍스트 감지를 위한 새로운 회전 기반 프레임 워크를 소개
텍스트 방향 각도 정보가 포함된 Rotation Region Proposal Networks (RRPN)를 제안함
Rotation Region-of-Interest (RRoI) pooling layer을 제안함
Faster-RCNN과 같은 구조로 region proposal-based architecture이다
Introduction
Proposed Methods
Horizontal Region Proposal
각 슬라이딩 위치에 k개의 anchor가 존재.
- k anchor에 대해 좌표를 나타내는 box regression(reg) layer
- 4k outputs (x, y, w, h)
- k anchor에 대해 점수를 나타내는 box-classification (cls) layer
- 2k scores (object, non object)
- anchor를 정하기 위한 parameter로는 Scale, Ratio를 사용함.
- Ex) Scale : 1x, 2x, 4x, 1:2, Ratio : 1:1, 2:1
기존 수평 anchor box선택 전략은 총 anchor의 수를 낮게 유지할 수 있음.
하지만 실제 이미지에서 텍스트를 찾는 경우 박스가 부자연스러운 모양임.
- 회전된 박스를 찾는 RPN을 제안함.
Architecture
Rotated Bounding Box Representation
Anchor Strategy
Learning of Rotated Proposal
Skew IoU Computation
RRoI Pooling Layer
Experiments
DataSet : MSRA-TD500, ICDAR2015, ICDAR2013
Implementation Details
- Learning rate : 0.001 for first 200,000 iterations, 0.0001 for the next 100,000 iterations
- Weight decay : 0.0005
- Momentum : 0.9
Conclusions & Reviews
전체적인 구조는 Faster-RCNN과 매우 똑같아서 이해하기가 쉬웠음
RPN을 만들 때 각도 값 𝜃만 추가해 주면 되는 간단한 문제라고 생각 할 수 있지만, RoI Pooling을 할 때 회전된 박스안에 픽셀 값을 받아오는 작업이 쉽지 않다고 느껴짐