Core Concepts
Transformers의 기존 Attention 메커니즘을 간단히 수정하여 로그-합 지수 함수로 표현할 수 있으며, 이를 통해 고정 크기의 잠재 공간에서 순차적으로 적용할 수 있어 토큰당 일정한 시간과 공간 복잡도로 처리할 수 있다.
Abstract
이 논문은 Transformers의 기존 Attention 메커니즘을 간단히 수정하여 효율적으로 처리하는 방법을 제안한다.
기존 Attention 메커니즘은 쿼리-키 유사도를 스케일된 내적으로 계산하고 Softmax 함수를 적용하여 가중치를 구하는데, 이 과정의 시간 복잡도가 입력 길이의 제곱에 비례한다는 문제가 있다.
저자는 쿼리-키 유사도를 지수 함수의 내적의 로그로 계산하고, 이를 로그-합 지수 함수로 표현하여 순차적으로 처리할 수 있도록 하였다. 이를 통해 고정 크기의 잠재 공간에서 Attention을 계산할 수 있게 되어, 토큰당 일정한 시간과 공간 복잡도로 처리할 수 있다.
저자는 이 방법을 자기회귀 Attention과 비자기회귀 Attention에 각각 적용하는 방법을 설명하고, 간단한 언어 모델에 적용하여 실험한 결과를 보여준다. 실험 결과는 기존 Attention 메커니즘과 경쟁력 있는 성능을 보여주었다.
저자는 이 방법이 기존 Attention 메커니즘의 유망한 대안이 될 수 있다고 결론 내리지만, 더 큰 규모의 모델과 다양한 벤치마크에서의 평가가 필요하다고 언급한다.
Stats
제안한 Attention 메커니즘을 적용한 언어 모델이 300억 토큰의 데이터로 학습한 결과, 교차 엔트로피 손실이 2.47을 달성했다.
이는 유사한 규모의 최신 언어 모델과 경쟁력 있는 성능이다.
Quotes
"기존 Attention 메커니즘의 비용은 입력 길이의 제곱에 비례하지만, 제안한 방법은 고정 크기의 잠재 공간에서 순차적으로 처리할 수 있어 토큰당 일정한 시간과 공간 복잡도로 처리할 수 있다."
"제안한 Attention 메커니즘은 기존 방법의 유망한 대안이 될 수 있지만, 더 큰 규모의 모델과 다양한 벤치마크에서의 평가가 필요하다."