Abstract
기존의 transformer는 고정된 개수(512)의 token들을 갖는 한 개의 segment만을 input으로 사용하여, 연속된 segment들 간의 dependency를 반영하지 못함
현재 segment를 처리할 때, 이전 segment를 처리할 때 계산된 hidden state들을 사용하는 recurrence를 추가하여 위 문제를 해결함
모델에 적합한 positional encoding을 변형하였음
Transformer-XL은 language modeling에서 SOTA의 성능을 기록함
Introduction
Transformer
Proposed Method
Vanilla Transformer Language Model
Segment-Level Recurrence with State Reuse
Relative Position Encoding
Transformer XL
Experiments
Conclusions & Reviews
RNN 계열 모델과 vanilla Transformer model보다 long-term dependency를 더 잘 잡아냈음
이전 segment를 저장해두고 사용함으로써 prediction시 상당한 속도 향상을 달성함
Recurrence 방법을 사용하기 위해 relative position encoding을 수식적으로 풀어서 의미부여를 하고, 적용한 것이 대단하다고 느낌