이 논문은 상태 공간 모델(SSM)을 기반 모델 아키텍처의 관점에서 소개하고 있다.
최근 들어 SSM을 딥 뉴럴 네트워크 아키텍처에 통합하려는 노력이 있었다. 이는 Mamba와 같은 모델이 Transformer 아키텍처보다 우수한 성능을 보인 것에서 알 수 있다. 기반 모델은 순차 데이터를 잠재 공간으로 인코딩하여 데이터의 압축된 표현을 학습하는 것을 목표로 한다. 이와 같은 목표는 제어 이론에서 SSM을 사용하여 동적 시스템을 효율적으로 모델링하는 것과 유사하다. 따라서 SSM은 딥 시퀀스 모델링과 자연스럽게 연결될 수 있어, 두 연구 분야 간 시너지를 창출할 기회를 제공한다.
이 논문은 제어 이론자들을 위한 SSM 기반 아키텍처에 대한 소개를 목적으로 한다. 가장 성공적인 SSM 제안들을 체계적으로 검토하고, 제어 이론적 관점에서 주요 특징을 강조한다. 또한 이러한 모델들의 성능을 장기 시퀀스 학습 능력을 평가하는 표준화된 벤치마크에서 비교 분석한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問