핵심 개념
언어 모델의 다중 선택 과제에 대한 예측은 점수 방법의 변동에 대해 견고하지 않음
초록
언어 모델의 다중 선택 과제에 대한 예측의 견고성에 대한 연구
다양한 점수 방법의 비교
LLM 예측의 변동성과 연구 결과의 신뢰성에 대한 중요성 강조
통계
LLM 예측의 견고성에 대한 연구
다양한 점수 방법의 비교
인용구
"Recent Large Language Models (LLMs) show impressive performance on various tasks."
"This paper contributes to previous work on robustness, by exploring possible variance at the level of an LLM’s prediction for a single item of a multiple choice task."
"There are pronounced performance differences between different models."