이 연구는 자기 주의 메커니즘이 다음 토큰 예측 문제를 어떻게 해결하는지 분석한다.
입력 시퀀스에서 마지막 토큰과 관련된 우선순위 토큰들을 정확히 선택한다. 이는 토큰 우선순위 그래프(TPG)의 강연결 성분(SCC)에 의해 정의된다.
선택된 우선순위 토큰들의 볼록 조합을 통해 다음 토큰을 출력한다.
연구진은 이러한 두 단계 메커니즘을 수학적으로 증명하였다. 구체적으로, 경사 하강법을 통해 학습된 자기 주의 모델의 가중치는 SVM 문제의 해법으로 수렴한다. 이는 모델이 입력 시퀀스에서 우선순위가 높은 토큰들을 선택하고, 이들의 볼록 조합을 통해 다음 토큰을 예측하는 것을 의미한다.
이러한 발견은 자기 주의 메커니즘이 순차 데이터를 처리하는 방식을 이해하는 데 도움이 될 것이며, 더 복잡한 아키텍처에 대한 통찰을 제공할 것으로 기대된다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문