본 논문은 메모리 기반 비디오 객체 분할 방법에 객체 수준의 인식과 동적 예측을 도입하여 성능을 크게 향상시킨다. 구체적으로 객체 쿼리를 활용하여 객체 수준의 인식을 제공하고, 이를 통해 다중 객체 간 상호작용과 효과적인 콘텐츠 이해를 실현한다.