Core Concepts
주의 메커니즘은 입력 토큰의 잠재 변수 모델을 통해 충분하고 최소적인 표현을 추론하며, 이를 통해 장기 의존성을 가진 관계적 추론을 수행할 수 있다.
Abstract
이 논문은 주의 메커니즘을 잠재 변수 모델의 관점에서 분석합니다.
첫째, 입력 토큰의 교환가능성으로부터 잠재 변수 모델이 유도되며, 이 잠재 변수는 입력 토큰의 충분하고 최소적인 표현을 나타냅니다. 이 표현은 출력 레이블 예측 및 하위 작업 해결에 핵심적인 역할을 합니다.
둘째, 주의 메커니즘은 커널 조건부 평균 임베딩을 통해 잠재 변수 사후 분포를 근사적으로 추론합니다. 이는 주의 메커니즘이 장기 의존성을 가진 관계적 추론을 수행하는 방식을 설명합니다.
셋째, 감독 및 자기 지도 학습 목적함수를 통해 주의 메커니즘의 학습 가능한 매개변수를 추정할 수 있습니다. 특히 자기 지도 학습에서는 하위 작업 해결에 중요한 조건 수가 식별됩니다.
이러한 분석을 통해 주의 메커니즘은 잠재 변수 모델에 의해 유도된 구조("화이트박스")와 데이터로부터 추정된 학습 가능한 매개변수("블랙박스")의 결합으로 특징지어집니다.
Stats
입력 토큰 xℓ의 값은 1 이하로 제한된다.
입력 토큰 수 L이 증가함에 따라 주의 메커니즘의 근사 오차가 감소한다.
마스킹 목적함수의 전역 최소값은 입력 크기에 독립적인 일반화 오차를 달성한다.
마스킹 목적함수의 조건 수는 하위 작업 해결에 중요하다.
Quotes
"주의 메커니즘은 입력 토큰의 잠재 변수 사후 분포를 근사적으로 추론한다."
"감독 및 자기 지도 학습 목적함수를 통해 주의 메커니즘의 학습 가능한 매개변수를 추정할 수 있다."
"주의 메커니즘은 잠재 변수 모델에 의해 유도된 구조와 데이터로부터 추정된 학습 가능한 매개변수의 결합으로 특징지어진다."