태스크 지향적 객체 탐지는 특정 태스크를 수행하기에 적합한 객체를 찾는 것을 목표로 한다. 이를 위해 본 연구는 일반 객체 탐지와 태스크 기반 객체 선택의 두 단계로 구성된 TaskCLIP 모델을 제안한다. 특히 후자의 단계에서는 대규모 비전-언어 모델을 활용하여 이미지와 텍스트 간 정렬을 개선하고, 선택 과정을 최적화한다.