Abstract
당시 가장 좋은 모델은 Attention 메커니즘을 통해 encoder와 decoder를 연결한 모델이 성능이 가장 좋음
기존 모델들처럼 RNN또는 CNN을 사용하지 않고 attention 메커니즘만을 기반으로 하는 Transformer 모델을 제안함
기계 번역 태스크 실험을 통해 모델이 병렬화 가능하며, 학습 시간이 단축되는 것을 보임
Introduction
Proposed Method
Model Architecture
Positional Encoding
Encoder
Multi-Head Attention
Position-Wise FC Layer
Decoder
Why Self-Attention
Training
Experiments
Conclusions & Reviews
Machine Translation 태스크에서 Transformer 모델은 빠르게 학습하며, 성능도 우수하다는 것을 보여줌
Recurrent 모델을 사용하지 않고도 sequential 데이터를 처리할 수 있는 모델
Encoder와 decoder에서 attention을 통해 query와 가장 밀접한 연관성을 가지는 value를 강조 할 수 있음
모델 병렬화가 가능해짐
Attention을 다시 정리하면서 공부할 수 있었음