Home Paper Review. Attention is all you need@NIPS' 2017
Post
Cancel

Paper Review. Attention is all you need@NIPS' 2017

Abstract

  • 당시 가장 좋은 모델은 Attention 메커니즘을 통해 encoder와 decoder를 연결한 모델이 성능이 가장 좋음

  • 기존 모델들처럼 RNN또는 CNN을 사용하지 않고 attention 메커니즘만을 기반으로 하는 Transformer 모델을 제안함

  • 기계 번역 태스크 실험을 통해 모델이 병렬화 가능하며, 학습 시간이 단축되는 것을 보임

Introduction

Proposed Method

Model Architecture

Positional Encoding

Encoder

Multi-Head Attention

Position-Wise FC Layer

Decoder

Why Self-Attention

Training

Experiments

Conclusions & Reviews

  • Machine Translation 태스크에서 Transformer 모델은 빠르게 학습하며, 성능도 우수하다는 것을 보여줌

  • Recurrent 모델을 사용하지 않고도 sequential 데이터를 처리할 수 있는 모델

  • Encoder와 decoder에서 attention을 통해 query와 가장 밀접한 연관성을 가지는 value를 강조 할 수 있음

  • 모델 병렬화가 가능해짐

  • Attention을 다시 정리하면서 공부할 수 있었음

Reference