Core Concepts
VLLMs는 인간의 명명 선호도를 캡처하는 능력에 실패한다.
Abstract
Abstract:
인간의 명명 선호도를 캡처하는 VLLMs의 능력 평가
VLLMs는 양적 평가에서 인간의 분포를 캡처하지 못함
Introduction:
대형 언어 모델의 성능과 시각 이해 능력 증가
VLLMs의 인간의 명명 선호도 분석
Experiments:
세 가지 다른 제작 조건에서 문제 조사
ManyNames, NOUN, QUANT 데이터셋 사용
FROMAGe, BLIP-2, LLaVA 모델 평가
Results:
모델은 일반적 및 특이 객체의 명칭과 색상 용어에 대해 인간과 일정한 상관관계를 보임
양적자에 대한 모델의 성능은 모두 심각한 한계를 보임
The Curious Case of Quantifiers:
모든 모델이 양적자를 할당하는 데 심각한 한계를 보임
모델의 특정 양적자에 대한 편향성 확인
Conclusion:
VLLMs는 양적자 할당에서 실패
모델의 "카운팅" 능력이 부족한 이유에 대한 가설 제시
Limitations:
다중 선택 프롬프트의 복잡성으로 인한 성능 저하 가능성
모델이 인간의 다양성을 완벽하게 모방할 수 없음
Stats
인간의 명명 선호도를 캡처하는 VLLMs의 능력 평가
VLLMs는 양적 평가에서 인간의 분포를 캡처하지 못함
모델은 일반적 및 특이 객체의 명칭과 색상 용어에 대해 인간과 일정한 상관관계를 보임
양적자에 대한 모델의 성능은 모두 심각한 한계를 보임
모든 모델이 양적자를 할당하는 데 심각한 한계를 보임
모델의 특정 양적자에 대한 편향성 확인
Quotes
"While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints."
"Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences, with all models failing in tasks that require high-level reasoning such as assigning quantifiers."