Core Concepts
증분 처리가 가능한 Transformer 모델을 개발하기 위해, 기존 Transformer 모델의 한계를 극복하고 효율적인 증분 처리 성능을 달성하는 방법을 제안한다.
Abstract
이 연구는 증분 처리가 가능한 Transformer 모델의 개발을 목표로 한다. Transformer 모델은 병렬 처리에 최적화되어 있어 시간 순서에 따른 처리가 어려운 문제가 있다. 이를 해결하기 위해 저자들은 다음과 같은 방법을 제안하고 실험적으로 검증하였다:
선형 Transformer (LT) 모델: LT 모델은 기존 Transformer 모델보다 효율적이며, 순환 메커니즘을 통해 RNN과 유사한 동작이 가능하다. 이를 통해 증분 처리에 유리할 것으로 기대된다.
입력 prefix를 활용한 학습: 입력 prefix로 모델을 학습시키면 중간 출력을 더 잘 예측할 수 있다.
출력 지연: 출력을 1-2 시간 지연시키면 더 안정적인 중간 출력을 얻을 수 있다.
실험 결과, LT 모델은 기존 Transformer 모델에 비해 증분 처리 성능이 우수하고 추론 속도도 빠른 것으로 나타났다. 다만 전체 시퀀스에 대한 성능은 다소 떨어지는 것으로 확인되었다. 이는 출력 지연을 통해 어느 정도 보완할 수 있었다.
Stats
입력 시퀀스 길이가 길어질수록 LT+R+CM 모델의 증분 추론 속도가 선형적으로 증가하여 기존 모델들보다 월등히 빠르다.
LT+R+CM 모델의 증분 처리 성능 지표(EO, CT, RC)가 다른 모델들에 비해 우수하다.
Quotes
"증분 처리를 통해 대화형 시스템이 부분적인 입력에 기반하여 응답할 수 있는 것은 바람직한 특성이다."
"현재 널리 사용되는 Transformer 아키텍처는 본질적으로 전체 시퀀스를 한 번에 처리하여 시간에 따른 개념을 추상화한다."