Home Paper Review. Align Deep Features for Oriented Object Detection@IEEE Transactions on Geoscience and Remote Sensing' 2021
Post
Cancel

Paper Review. Align Deep Features for Oriented Object Detection@IEEE Transactions on Geoscience and Remote Sensing' 2021

Abstract

  • 기존 방법들은 scale, angle, aspect ratio를 사용하여 heuristic하게 정의된 anchor에 의존함

  • 회전된 Anchor box와 회전되지 않은(axis-aligned) convolution사이의 misalignment로 인해 classification과 localization 정확도 간에 불일치가 존재함

  • Single-shot alignment Network(S^2A-Net)은 두개의 모듈로 이루어져 있음.
    • Feature Alignment Module(FAM) : 고품질 anchor를 생성하고, alignment convolution을 통해 anchor 위치에 맞는 convolution을 수행함
    • Oriented Detection Module(ODM) : Active Rotating Filters(ARF)를 사용해 방향 정보를 인코딩하여 orientation-sensitive feature를 제공함으로써 classification과 localization 정확도 간의 불일치를 어느정도 해결함
  • DOTA 데이터 셋에서 SOTA를 달성함

Introduction

  • Anchor box와 object간의 misalignment를 해결하기 위해 논문에서는 Single-shot alignment Network(S^2A-Net)을 제안함.

  • Feature Alignment Module(FAM)
    • 다른 방법론들과 다르게 하나의 horizontal anchor를 갖음.
    • Anchor Refinement Network (ARN)에서 고품질의 회전된 anchor를 생성함.
    • Alignment convolution을 통해 anchor 위치에 맞는 convolution을 수행함.
  • Oriented Detection Module(ODM)
    • Active Rotating Filters(ARF)를 사용해 방향 정보를 인코딩하여 orientation-sensitive feature를 제공함으로써 classification과 localization 정확도 간의 불일치를 어느정도 해결함.

Proposed Method

Model Architecture - FPN

Model Architecture - FAM

Anchor Refinement Network

Alignment Convolution Layer

Model Architecture - ODM

Active Rotating Filters

Model Architecture - Summary

Loss Function

Experiments

  • Dataset
    • DOTA
      • 크기 범위 : 800 x 800 ~ 4000 x 4000
      • 이미지 수 : 2806
      • Augmentation : 좌,우,상,하 flip, multi scale training, multi scale test
    • HRSC2016
      • 크기 범위 : 300 x 300 ~ 1500 x 900
      • 이미지 수 : 617
      • Augmentation : 좌,우 flip

Conclusions & Reviews

  • Feature Alignment Module과 Oriented Detection Module이 포함된 Single-Shot Alignment Network을 제안하며 속도와 정확도 모두 챙김

  • Predict box 정보를 Anchor box에 넣어서 학습 가능한 refine anchor를 만드는 방법이 좋았음

  • Deformable convolution을 쓸 때, offset field를 refine anchor를 기반으로 가져오기 때문에 효과가 있었음

  • 모델이 갈수록 어려워지는 것 같고, 논문에서는 아주 간략하게 설명하기 때문에 전반적인 기초 지식이 없으면 이해하기 힘듬

  • 코드를 뜯어보며 살펴보니 모델 구조를 명확히 이해할 수 있었고, Loss부분도 자세하게 뜯어볼 계획임

Reference

  1. Zhou, Yanzhao, et al. “Oriented response networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

Paper Review. Feature Selective Anchor-Free Module for Single-Shot Object Detection@CVPR' 2019

Paper Review. Learning from Noisy Anchors for One-stage Object Detection@CVPR' 2020