이 연구는 마스크드 언어 모델링(MLM) 작업에서 자기 주의 메커니즘이 학습할 수 있는 확률 분포 구조를 분석한다. 특히 단일 레이어의 분리된 주의 메커니즘이 일반화된 Potts 모델의 조건부 확률 분포를 정확하게 학습할 수 있음을 보여준다.
주요 내용은 다음과 같다:
단어 위치와 임베딩을 분리하여 다루는 단일 레이어의 분리된 주의 메커니즘은 단어 간 상호작용과 단어 유사도를 모두 고려하는 일반화된 Potts 모델의 조건부 확률 분포를 정확하게 학습할 수 있다.
이러한 매핑을 통해 분리된 주의 메커니즘의 학습이 통계물리학에서 잘 알려진 유사우도 방법을 통한 역 Potts 문제 해결과 동일함을 보였다. 이는 분리된 주의 메커니즘이 일관성 있는 매개변수 추정량을 제공함을 의미한다.
복제 방법을 활용하여 단일 레이어 분리된 주의 메커니즘의 일반화 오차를 해석적으로 계산하였다. 이를 통해 작은 데이터 regime에서 과적합으로 인한 일반화 오차 증가 현상을 관찰하였다.
이 연구 결과는 분리된 주의 메커니즘이 변환기 모델의 강력한 구성 요소가 될 수 있음을 시사한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Riccardo Ren... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2304.07235.pdfDeeper Inquiries