Основные понятия
Möbius 변환을 트랜스포머 모델의 주의 메커니즘에 통합하여 복잡한 언어 관계를 더 잘 포착할 수 있게 한다.
Аннотация
이 논문은 Möbius 변환을 활용하여 트랜스포머 모델의 주의 메커니즘을 확장하는 MöbiusAttention을 제안한다. Möbius 변환은 선형 연산에 국한되는 기존 주의 메커니즘의 한계를 극복하고, 다양한 기하학적 관계를 학습할 수 있게 한다.
구체적으로, MöbiusAttention은 쿼리 벡터를 Möbius 변환을 통해 계산하고, 키와 값 벡터는 복소수 선형 변환을 사용한다. 이를 통해 모델은 토큰 간 복잡한 관계를 더 잘 포착할 수 있게 된다.
저자들은 MöbiusAttention을 BERT와 RoFormer 모델에 통합한 MöbiusBERT와 MobRoFormer를 개발하고, GLUE 벤치마크에서 평가했다. 실험 결과, 제안 모델들이 기존 모델들을 능가하는 성능을 보였으며, 특히 파라미터 수가 적은 경우에도 우수한 성능을 달성했다. 이는 MöbiusAttention의 향상된 표현력을 보여준다.
Статистика
제안 모델들은 BERT 기반 모델보다 적은 파라미터 수(약 104M vs 110M)로도 우수한 성능을 달성했다.
제안 모델들의 사전 학습 시간은 BERT 기준 모델과 동일했다.
Цитаты
"Attention mechanisms and Transformer architectures have revolutionized Natural Language Processing (NLP) by enabling exceptional modeling of long-range dependencies and capturing intricate linguistic patterns."
"However, their inherent reliance on linear operations in the form of matrix multiplications limits their ability to fully capture inter-token relationships on their own."
"Möbius transformations are non-linear operations in spaces over complex numbers with the ability to map between various geometries."