이 논문은 상태 공간 모델(SSM)을 온라인 학습 문제를 해결하는 메타 모듈로 제시한다. 기존 SSM 모델들은 상태 전이 규칙을 수동으로 설계해야 했지만, 이 논문에서는 온라인 학습 목적함수를 정의하고 이를 최적화하는 방식으로 SSM을 설계한다.
구체적으로, 저자들은 온라인 연관 기억 문제를 해결하는 Longhorn이라는 새로운 SSM 아키텍처를 제안한다. Longhorn의 상태 전이 규칙은 이 문제의 암묵적 폐쇄형 해법에서 유도된다. 실험 결과, Longhorn은 기존 SSM 모델들에 비해 향상된 성능을 보였으며, 특히 샘플 효율성이 1.8배 개선되었다. 또한 Longhorn은 훈련 시 보다 16배 긴 문맥에서도 잘 작동하는 것으로 나타났다.
이 논문은 SSM 설계에 대한 새로운 원칙을 제시하였으며, 이를 통해 보다 효율적이고 성능 좋은 SSM 모델을 개발할 수 있음을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문