Core Concepts
콜라주 프롬프팅은 여러 이미지를 하나의 시각적 프롬프트로 결합하여 GPT-4V가 동시에 여러 이미지를 인식할 수 있게 함으로써 비용을 크게 절감할 수 있다.
Abstract
이 논문은 GPT-4V의 시각적 인식 능력을 활용하면서도 비용을 절감할 수 있는 콜라주 프롬프팅 기법을 제안한다.
첫째, 콜라주 프롬프팅은 여러 이미지를 하나의 시각적 프롬프트로 결합하여 GPT-4V가 동시에 여러 이미지를 인식할 수 있게 한다. 이를 통해 개별 이미지를 순차적으로 인식하는 기존 방식에 비해 비용을 크게 절감할 수 있다.
둘째, 콜라주 프롬프트 내 이미지 배치 순서가 GPT-4V의 인식 정확도에 큰 영향을 미치는 것을 관찰하였다. 따라서 이미지 배치를 최적화하는 학습 기반 방법을 제안하였다. 이를 통해 콜라주 프롬프트의 인식 정확도를 더욱 높일 수 있다.
셋째, 다양한 데이터셋에 대한 실험 결과, 제안 방법이 기존 방식 대비 비용 효율성이 크게 향상되었음을 보였다. 특히 2x2 및 3x3 콜라주 프롬프트에서 두드러진 성능 향상을 확인하였다.
Stats
1x1 그리드 방식의 경우 비용은 $51.30이며 정확도는 62.0%이다.
2x2 그리드 방식의 경우 비용은 $12.83이며 정확도는 45.7%이다.
3x3 그리드 방식의 경우 비용은 $5.70이며 정확도는 33.7%이다.
Quotes
"콜라주 프롬프팅은 여러 이미지를 하나의 시각적 프롬프트로 결합하여 GPT-4V가 동시에 여러 이미지를 인식할 수 있게 함으로써 비용을 크게 절감할 수 있다."
"콜라주 프롬프트 내 이미지 배치 순서가 GPT-4V의 인식 정확도에 큰 영향을 미치는 것을 관찰하였다."