이 논문은 Möbius 변환을 활용하여 트랜스포머 모델의 주의 메커니즘을 확장하는 MöbiusAttention을 제안한다. Möbius 변환은 선형 연산에 국한되는 기존 주의 메커니즘의 한계를 극복하고, 다양한 기하학적 관계를 학습할 수 있게 한다.
구체적으로, MöbiusAttention은 쿼리 벡터를 Möbius 변환을 통해 계산하고, 키와 값 벡터는 복소수 선형 변환을 사용한다. 이를 통해 모델은 토큰 간 복잡한 관계를 더 잘 포착할 수 있게 된다.
저자들은 MöbiusAttention을 BERT와 RoFormer 모델에 통합한 MöbiusBERT와 MobRoFormer를 개발하고, GLUE 벤치마크에서 평가했다. 실험 결과, 제안 모델들이 기존 모델들을 능가하는 성능을 보였으며, 특히 파라미터 수가 적은 경우에도 우수한 성능을 달성했다. 이는 MöbiusAttention의 향상된 표현력을 보여준다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Anna-Maria H... kl. arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12175.pdfDybere Forespørgsler