이 연구는 비디오 생성을 위한 확산 모델에 구조화된 상태 공간 모델(SSM)을 통합하는 방법을 제안한다. 기존 비디오 확산 모델은 시간적 주의 메커니즘을 사용하여 시간적 특징을 포착하지만, 이는 시퀀스 길이의 제곱에 비례하는 메모리 소비로 인해 긴 비디오 시퀀스 생성에 어려움이 있다.
제안하는 방법은 시간적 SSM 레이어를 사용하여 이 문제를 해결한다. 시간적 SSM 레이어는 양방향 SSM과 MLP로 구성되며, 시간적 주의 메커니즘을 대체한다. 실험 결과, 제안 모델은 UCF101 및 MineRL Navigate 데이터셋에서 경쟁력 있는 생성 성능을 보이면서도 긴 비디오 시퀀스 생성 시 메모리 효율성이 크게 향상되었다.
또한 시간적 SSM 레이어의 각 구성 요소에 대한 심층적인 분석을 통해 양방향 SSM과 MLP가 핵심적인 역할을 한다는 것을 확인했다. 이러한 결과는 비디오 확산 모델에 SSM을 통합하는 것이 긴 비디오 생성을 위한 효율적인 접근법임을 보여준다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы