이 논문은 Transformers의 기존 Attention 메커니즘을 간단히 수정하여 효율적으로 처리하는 방법을 제안한다.
기존 Attention 메커니즘은 쿼리-키 유사도를 스케일된 내적으로 계산하고 Softmax 함수를 적용하여 가중치를 구하는데, 이 과정의 시간 복잡도가 입력 길이의 제곱에 비례한다는 문제가 있다.
저자는 쿼리-키 유사도를 지수 함수의 내적의 로그로 계산하고, 이를 로그-합 지수 함수로 표현하여 순차적으로 처리할 수 있도록 하였다. 이를 통해 고정 크기의 잠재 공간에서 Attention을 계산할 수 있게 되어, 토큰당 일정한 시간과 공간 복잡도로 처리할 수 있다.
저자는 이 방법을 자기회귀 Attention과 비자기회귀 Attention에 각각 적용하는 방법을 설명하고, 간단한 언어 모델에 적용하여 실험한 결과를 보여준다. 실험 결과는 기존 Attention 메커니즘과 경쟁력 있는 성능을 보여주었다.
저자는 이 방법이 기존 Attention 메커니즘의 유망한 대안이 될 수 있다고 결론 내리지만, 더 큰 규모의 모델과 다양한 벤치마크에서의 평가가 필요하다고 언급한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Franz A. Hei... pada arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05843.pdfPertanyaan yang Lebih Dalam