Core Concepts
계층적 홉필드 네트워크의 동역학은 출력 측에서 입력 측으로 전파되는 MLP 레이어로 구성된 iMixer라는 새로운 MetaFormer 모델을 암시한다.
Abstract
이 논문은 계층적 홉필드 네트워크와 MLP-Mixer 간의 대응 관계를 일반화하여 새로운 MetaFormer 모델인 iMixer를 제안한다. iMixer는 기존 MLP-Mixer와 동일한 거시적 아키텍처를 가지지만, 토큰 혼합 블록이 역전 가능한 ResNet (i-Res) 모듈로 구성된다는 점에서 차이가 있다.
iMixer의 토큰 혼합 모듈은 출력 측 y에서 입력 측 x로 전파되는 MLP f(·)로 정의된다. 이는 입력 측에서 출력 측으로의 명시적인 전파 방정식으로 표현할 수 없는 모듈의 예시이다. i-Res 모듈을 사용하면 이러한 역방향-순방향 전파를 무한히 반복하는 일반적인 순방향 신경망으로 표현할 수 있다.
실험 결과, iMixer는 기존 MLP-Mixer와 비교하여 안정적인 학습 능력을 보이며 유사하거나 더 나은 성능을 달성한다. 이는 홉필드 네트워크와 Mixer 모델 간의 대응 관계가 MetaFormer 아키텍처 설계에 대한 새로운 원리를 제공할 수 있음을 시사한다.
Stats
이 모델은 CIFAR-10 데이터셋을 사용하여 평가되었습니다.