이 연구는 기존 VQA 벤치마크의 한계를 해결하고 혁신적인 평가 방법론을 제안하여 텍스트 생성 시각-언어 모델의 능력을 심도 있게 이해하고자 한다.
주요 내용은 다음과 같다:
잘 알려진 시각 분류 데이터셋을 활용하여 새로운 VQA 벤치마크를 구축했다. 이를 통해 텍스트 생성 시각-언어 모델과 판별 시각-언어 모델을 세부적으로 평가할 수 있다.
세부적인 분류 과제에서 개략적인 답변을 평가하기 위해, 정답 범주의 의미 계층을 활용하여 자동으로 후속 질문을 생성했다. 이를 통해 모델의 응답 정확도를 높일 수 있다.
정답 대비 모델 예측을 평가하기 위해 기존 NLP 및 LLM 기반 메트릭을 비교했다. 사용자 평가 연구를 바탕으로 최종 메트릭을 선정했다.
제안한 벤치마크를 다양한 시각-언어 모델에 적용하여 객체, 행동, 속성 분류 능력을 상세히 비교했다.
이 연구 결과는 시각-언어 모델 평가의 정확성과 의미성을 높여 해당 분야의 발전을 촉진할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Simo... lúc arxiv.org 05-07-2024
https://arxiv.org/pdf/2402.07270.pdfYêu cầu sâu hơn