Home Paper Review. Arbitrary-Oriented Scene Text Detection via Rotation proposals@IEEE Transactions on Multimedia' 2018
Post
Cancel

Paper Review. Arbitrary-Oriented Scene Text Detection via Rotation proposals@IEEE Transactions on Multimedia' 2018

Abstract

  • 이미지에서의 텍스트 감지를 위한 새로운 회전 기반 프레임 워크를 소개

  • 텍스트 방향 각도 정보가 포함된 Rotation Region Proposal Networks (RRPN)를 제안함

  • Rotation Region-of-Interest (RRoI) pooling layer을 제안함

  • Faster-RCNN과 같은 구조로 region proposal-based architecture이다

Introduction

Proposed Methods

Horizontal Region Proposal

  • 각 슬라이딩 위치에 k개의 anchor가 존재.

  • k anchor에 대해 좌표를 나타내는 box regression(reg) layer
    • 4k outputs (x, y, w, h)
  • k anchor에 대해 점수를 나타내는 box-classification (cls) layer
    • 2k scores (object, non object)
  • anchor를 정하기 위한 parameter로는 Scale, Ratio를 사용함.
    • Ex) Scale : 1x, 2x, 4x, 1:2, Ratio : 1:1, 2:1
  • 기존 수평 anchor box선택 전략은 총 anchor의 수를 낮게 유지할 수 있음.

  • 하지만 실제 이미지에서 텍스트를 찾는 경우 박스가 부자연스러운 모양임.

  • 회전된 박스를 찾는 RPN을 제안함.

Architecture

Rotated Bounding Box Representation

Anchor Strategy

Learning of Rotated Proposal

Skew IoU Computation

RRoI Pooling Layer

Experiments

  • DataSet : MSRA-TD500, ICDAR2015, ICDAR2013

  • Implementation Details

    • Learning rate : 0.001 for first 200,000 iterations, 0.0001 for the next 100,000 iterations
    • Weight decay : 0.0005
    • Momentum : 0.9

Conclusions & Reviews

  • 전체적인 구조는 Faster-RCNN과 매우 똑같아서 이해하기가 쉬웠음

  • RPN을 만들 때 각도 값 𝜃만 추가해 주면 되는 간단한 문제라고 생각 할 수 있지만, RoI Pooling을 할 때 회전된 박스안에 픽셀 값을 받아오는 작업이 쉽지 않다고 느껴짐

Reference

Paper Review. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network@CVPR' 2017

Paper Review. EfficientDet - Scalable and Efficient Object Detection@CVPR' 2020