Core Concepts
대형 언어 모델과 비전-언어 모델은 자신들의 불확실성을 정확하게 추정하지 못하며, 대부분 과도하게 자신감을 표현한다.
Abstract
이 연구는 대형 언어 모델(GPT-4, GPT-3.5, LLaMA2, PaLM 2)과 비전-언어 모델(GPT4V, Gemini Pro Vision)의 언어화된 불확실성 추정 능력을 평가하였다.
대형 언어 모델의 경우, 감정 분석, 수학 문제 풀이, 개체명 인식 등 다양한 자연어 처리 작업에서 자신들의 불확실성을 정확하게 추정하지 못하는 것으로 나타났다. 특히 수학 문제 풀이와 개체명 인식 작업에서 모델들은 과도한 자신감을 보였다.
비전-언어 모델의 경우, 이미지 인식 작업에서 자신들의 불확실성을 정확하게 추정하지 못하고 과도한 자신감을 보였다. GPT-4V가 Gemini Pro Vision에 비해 상대적으로 더 나은 성능을 보였지만, 여전히 불확실성 추정에 어려움을 겪었다.
이 연구 결과는 현재 대형 언어 모델과 비전-언어 모델이 자신들의 불확실성을 정확하게 추정하는 능력이 부족하다는 것을 보여준다. 이는 이러한 모델의 신뢰성 및 안전성 확보를 위해 중요한 문제이며, 향후 연구를 통해 모델의 불확실성 추정 능력을 향상시킬 필요가 있다.
Stats
감정 분석 이진 분류 작업에서 GPT-4의 평균 정확도는 92%, 평균 자신감은 78.5%로 나타났다.
수학 문제 풀이 작업에서 GPT-4의 평균 정확도는 93%, 평균 자신감은 99.8%로 나타났다.
개체명 인식 작업에서 GPT-4의 평균 정확도는 95.3%, 평균 자신감은 97.9%로 나타났다.
Quotes
"Language and Vision-Language Models (LLMs/VLMs) have revolutionized the field of AI by their ability to generate human-like text and understand images, but ensuring their reliability is crucial."
"This exploration is guided by the following two research questions: How accurately do Large Language Models estimate their uncertainty across various natural language processing tasks? How accurately do Vision Language Models estimate their uncertainty when performing an image recognition task?"