본 연구는 의미론과 시간적 대응 정보를 통합하여 객체 중심 표현을 학습하는 새로운 자기 지도 학습 프레임워크를 제안한다. 의미론 분해와 인스턴스 식별을 위한 두 단계의 슬롯 어텐션 메커니즘을 통해 객체 인스턴스를 명시적으로 구분하고, 시간적 일관성을 활용하여 객체 중심 표현을 정제한다.