Core Concepts
이 논문에서는 변환기에 순환 메커니즘을 추가하는 두 가지 주요 접근법인 깊이 방향 순환과 청크 방향 순환을 연구하고, 이를 확장 및 결합한 새로운 방법을 제안하고 조사한다. 또한 다양한 진단 작업에서 모델들을 비교하고 귀납적 편향을 탐구한다.
Abstract
이 논문은 변환기에 순환 메커니즘을 추가하는 두 가지 주요 접근법을 연구한다:
깊이 방향 순환:
유니버설 변환기(UT)는 동일한 변환기 블록을 반복 적용하고 동적 중단 메커니즘을 사용하여 입력 복잡성에 따라 중단 시점을 결정한다.
제안한 게이트 유니버설 변환기(GUT)는 UT를 개선하여 게이팅 메커니즘과 전역 중단 메커니즘을 추가했다.
청크 방향 순환:
시간적 잠재 병목(TLB)은 변환기 블록을 재귀적으로 처리하여 청크 단위로 순환 처리를 수행한다.
제안한 게이트 유니버설 시간적 잠재 병목(GUTLB)은 TLB에 동적 중단 메커니즘을 결합했다.
실험 결과:
GUT는 ListOps와 논리 추론 작업에서 UT보다 전반적으로 우수한 성능을 보였다.
TLB는 flip-flop 언어 모델링, 길이 일반화, 장기 범위 모델링 작업에서 더 robust한 성능을 보였다.
청크 단위 순환은 재귀적 구조가 중요한 작업에서는 여전히 어려움을 겪었다.
GUTLB는 TLB 대비 큰 이점을 보이지 않았지만, 향후 연구에서 더 깊이 있게 탐구할 필요가 있다.
Stats
입력 복잡성에 따라 동적으로 층 수를 늘릴 수 있는 능력은 모델의 핵심적인 요구사항이다.
일부 작업에서 순환 신경망(RNN)이 변환기보다 성능이 좋은 경우가 있다.
실용적인 이유로 변환기에 순환 메커니즘을 추가하기도 한다.
Quotes
"Intuitively, we want our models to dynamically adapt to input complexity (Graves, 2016) - for example, dynamically increase or decrease the layers assigned to an input based on its complexity."
"Theoretical reasons (Han et al., 2021; Hao et al., 2022; Merrill et al., 2022) are also suggested for such limitations."
"Transformer XL (Dai et al., 2019) enables a recurrent cache mechanism to compress past information into a fixed number of memory slots for efficient language modeling."