Home Paper Review. Transformer-XL Attentive Language Models Beyond a Fixed-Length Context@ACL' 2019
Post
Cancel

Paper Review. Transformer-XL Attentive Language Models Beyond a Fixed-Length Context@ACL' 2019

Abstract

  • 기존의 transformer는 고정된 개수(512)의 token들을 갖는 한 개의 segment만을 input으로 사용하여, 연속된 segment들 간의 dependency를 반영하지 못함

  • 현재 segment를 처리할 때, 이전 segment를 처리할 때 계산된 hidden state들을 사용하는 recurrence를 추가하여 위 문제를 해결함

  • 모델에 적합한 positional encoding을 변형하였음

  • Transformer-XL은 language modeling에서 SOTA의 성능을 기록함

Introduction

Transformer

Proposed Method

Vanilla Transformer Language Model

Segment-Level Recurrence with State Reuse

Relative Position Encoding

Transformer XL

Experiments

Conclusions & Reviews

  • RNN 계열 모델과 vanilla Transformer model보다 long-term dependency를 더 잘 잡아냈음

  • 이전 segment를 저장해두고 사용함으로써 prediction시 상당한 속도 향상을 달성함

  • Recurrence 방법을 사용하기 위해 relative position encoding을 수식적으로 풀어서 의미부여를 하고, 적용한 것이 대단하다고 느낌

Reference