본 연구는 사전 학습된 비전-언어 모델을 활용하여 상태, 객체, 그리고 합성을 각각 독립적으로 모델링하는 다중 경로 기반의 새로운 패러다임을 제안한다. 또한 시각적 특징과 프롬프트 표현 간의 편향을 보정하기 위한 크로스모달 견인 모듈을 도입하여 성능을 향상시킨다.