이 연구는 기존 VQA 벤치마크의 한계를 해결하고 혁신적인 평가 방법론을 제안하여 텍스트 생성 시각-언어 모델의 능력을 심도 있게 이해하고자 한다.
주요 내용은 다음과 같다:
잘 알려진 시각 분류 데이터셋을 활용하여 새로운 VQA 벤치마크를 구축했다. 이를 통해 텍스트 생성 시각-언어 모델과 판별 시각-언어 모델을 세부적으로 평가할 수 있다.
세부적인 분류 과제에서 개략적인 답변을 평가하기 위해, 정답 범주의 의미 계층을 활용하여 자동으로 후속 질문을 생성했다. 이를 통해 모델의 응답 정확도를 높일 수 있다.
정답 대비 모델 예측을 평가하기 위해 기존 NLP 및 LLM 기반 메트릭을 비교했다. 사용자 평가 연구를 바탕으로 최종 메트릭을 선정했다.
제안한 벤치마크를 다양한 시각-언어 모델에 적용하여 객체, 행동, 속성 분류 능력을 상세히 비교했다.
이 연구 결과는 시각-언어 모델 평가의 정확성과 의미성을 높여 해당 분야의 발전을 촉진할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Deeper Inquiries