Core Concepts
언어 모델의 다중 선택 과제에 대한 예측은 점수 방법의 변동에 대해 견고하지 않음
Stats
LLM 예측의 견고성에 대한 연구
다양한 점수 방법의 비교
Quotes
"Recent Large Language Models (LLMs) show impressive performance on various tasks."
"This paper contributes to previous work on robustness, by exploring possible variance at the level of an LLM’s prediction for a single item of a multiple choice task."
"There are pronounced performance differences between different models."