자기 주의 메커니즘은 두 단계로 다음 토큰을 예측한다: (1) 입력 시퀀스에서 우선순위가 높은 토큰들을 정확히 선택하고, (2) 이 선택된 토큰들의 볼록 조합을 통해 다음 토큰을 출력한다.