객체 중심 학습은 복잡한 비주얼 장면을 더 관리 가능한 객체 표현으로 분해하여 기계 학습 시스템의 이해와 추론 능력을 향상시킨다. 최근 슬롯 기반 비디오 모델은 객체 분할과 추적에서 뛰어난 성능을 보였지만, 효과적인 추론 모듈의 중요성을 간과했다. 본 연구에서는 슬롯 기반 시공간 변환기와 메모리 버퍼로 구성된 새로운 추론 모듈을 제안하여 복잡한 장면에서의 모델 인지 능력을 향상시켰다.