의미 정보를 활용하여 능동적으로 시각 탐색 및 장면 탐색 작업을 수행할 수 있는 모델을 제안하였다. 이 모델은 현대 객체 탐지기의 능력을 활용하여 다양한 객체 클래스를 탐지하고 여러 번의 응시를 통해 장면의 의미 정보를 업데이트할 수 있다.