Alapfogalmak
대형 언어 모델은 자신의 불확실성을 정확하게 표현하는 데 어려움을 겪으며, 이는 모델 성능 향상을 위해 해결해야 할 과제이다. 다양한 프롬프팅, 샘플링, 집계 전략을 통해 모델의 신뢰도 추정 성능을 개선할 수 있다.
Kivonat
이 연구는 대형 언어 모델(LLM)의 불확실성 표현 능력을 평가하고 개선하기 위한 방법을 탐구한다.
- LLM은 자신의 답변에 대한 신뢰도를 표현할 때 과도하게 자신감을 보이는 경향이 있다. 이는 모델이 인간의 신뢰도 표현 패턴을 모방하기 때문으로 보인다.
- 모델 규모가 커질수록 신뢰도 보정 및 오류 예측 성능이 향상되지만, 여전히 이상적인 수준에는 미치지 못한다.
- 인간 대화 패턴에서 영감을 얻은 프롬프팅 전략, 다중 응답의 일관성 활용, 개선된 집계 전략 등을 통해 과도한 자신감을 완화할 수 있다.
- 화이트박스 기법과의 비교 결과, 화이트박스 기법이 더 나은 성능을 보이지만 그 격차는 크지 않다.
- 전문 지식이 필요한 과제 등 복잡한 과제에서는 여전히 어려움을 겪는 등, 신뢰도 추정 기법 개선을 위한 여지가 많이 남아있다.
Statisztikák
모델의 신뢰도 수준은 주로 80%~100% 범위에 집중되어 있으며, 5의 배수로 표현되는 경향이 있다.
모델 규모가 커질수록 신뢰도 보정 및 오류 예측 성능이 향상되지만, 여전히 이상적인 수준에는 미치지 못한다.
Idézetek
"LLMs, when verbalizing their confidence, tend to be overconfident, potentially imitating human patterns of expressing confidence."
"As model capability scales up, both calibration and failure prediction performance improve, yet still far from ideal performance."