核心概念
구조화된 확산 모델과 압축 최적화를 결합하여 효율적이고 해석 가능한 마스크 자동인코딩 모델 CRATE-MAE를 제안한다.
要約
이 논문은 확산 모델과 압축 최적화 간의 근본적인 연결고리를 밝혀내고, 이를 활용하여 화이트박스 트랜스포머 구조의 자동인코딩 모델 CRATE-MAE를 제안한다.
-
확산 모델과 압축 최적화는 저차원 구조를 가진 데이터에서 유사한 작용을 한다는 것을 수학적으로 증명한다. 이는 확산 모델의 점진적 디노이징 과정이 압축 최적화의 점진적 압축 과정과 동등하다는 것을 의미한다.
-
이러한 통찰을 바탕으로, 기존의 CRATE 모델을 확장하여 자동인코딩을 위한 CRATE-MAE 모델을 제안한다. CRATE-MAE는 압축과 스파스화를 반복적으로 수행하는 인코더와, 이를 역으로 수행하는 디코더로 구성된다.
-
CRATE-MAE는 기존 마스크 자동인코더 모델 대비 약 30% 수준의 파라미터만으로도 경쟁력 있는 성능을 보인다. 또한 학습된 표현에서 의미 있는 시각적 구조가 자연스럽게 나타나는 것을 확인할 수 있다.
統計
데이터 차원 D와 토큰 개수 N, 서브스페이스 개수 K, 서브스페이스 차원 p 간의 상대적 크기가 실제 트랜스포머 아키텍처와 유사한 경우, 압축 gradient -∇ziRc(Zℓ| U ℓ
[K])는 zℓ
i를 가장 가까운 U ℓ
k 방향으로 이동시킨다.
확산 확률 흐름 ODE dZ(t) = -1/2(T-t)∇Rc(Z(t) | U[K]) dt는 Z(t)를 데이터 분포의 지지대 위로 점진적으로 투영한다.
引用
"Modern deep networks tend to learn (implicit or explicit) representations of this structure, which are then used to efficiently perform downstream tasks."
"White-box models are designed to produce explicit and structured representations of the data distribution according to a desired parsimonious configuration, such as sparsity or (piecewise) linearity."
"Crucially, in the case of data with low-dimensional structure—including the highly nonlinear structure characteristic of natural images—these models can be learned efficiently."