Core Concepts
텍스트-이미지 모델의 성능을 평가하기 위한 포괄적인 벤치마크를 소개하고, 현존하는 보상 모델들의 한계를 분석하며, 이를 개선하기 위한 방법을 제안한다.
Abstract
이 논문은 텍스트-이미지 모델의 성능을 평가하기 위한 포괄적인 벤치마크인 TIA2를 소개한다. TIA2는 다양한 텍스트 프롬프트, 이미지, 그리고 사람의 평가 데이터로 구성되어 있다. 이를 통해 저자들은 현존하는 보상 모델들의 한계를 분석하였다. 특히 보상 모델을 과도하게 최적화하면 텍스트-이미지 정렬과 이미지 품질이 모두 저하될 수 있음을 실험적으로 보였다.
이를 해결하기 위해 저자들은 TextNorm이라는 방법을 제안한다. TextNorm은 의미적으로 대조되는 프롬프트들을 활용하여 보상 모델의 신뢰도를 측정하고, 이를 기반으로 보상을 조정한다. 실험 결과, TextNorm은 보상 모델의 정렬도를 크게 향상시키고, 과도한 최적화를 효과적으로 완화할 수 있음을 보였다.
Stats
"이미지 품질이 텍스트-이미지 정렬에 영향을 줄 수 있을 만큼 충분히 나쁜 경우 레이블 2(나쁨)를 선택하라."
"텍스트와 이미지가 잘 정렬되어 있다고 생각되면 레이블 1(좋음)을 선택하라."