Grunnleggende konsepter
MMLU-Pro+는 다중 정답 선택지를 도입하여 언어 모델의 고차원 추론 능력과 지름길 학습 경향을 평가하는 새로운 벤치마크이다.
Sammendrag
MMLU-Pro+는 MMLU-Pro 벤치마크를 기반으로 하며, 다음과 같은 특징을 가진다:
- 다중 정답 선택지 도입: 문제에 "A와 B가 모두 정답"과 같은 선택지를 추가하여 언어 모델의 복잡한 추론 능력을 평가한다.
- 부분적으로 잘못된 선택지 도입: "A와 B가 모두 정답"에서 B가 잘못된 선택지인 경우를 포함하여 모델의 미세한 차이 구분 능력을 평가한다.
- 완전히 잘못된 선택지 도입: "A와 B가 모두 정답"에서 A와 B가 모두 잘못된 선택지인 경우를 포함하여 모델의 편향 및 지름길 학습 경향을 평가한다.
- 새로운 평가 지표 도입: 지름길 선택 비율(Shortcut Selection Ratio)과 정답 쌍 식별 비율(Correct Pair Identification Ratio)을 통해 모델의 추론 능력과 편향을 심층적으로 분석한다.
실험 결과, MMLU-Pro+는 기존 벤치마크보다 높은 난이도를 제공하며, 상위 언어 모델 간 성능 차이를 효과적으로 드러냈다. 특히 지름길 선택 비율과 정답 쌍 식별 비율 분석을 통해 모델의 편향과 고차원 추론 능력의 차이를 확인할 수 있었다. 이는 MMLU-Pro+가 언어 모델의 실제 추론 능력을 보다 정확하게 평가할 수 있음을 시사한다.
Statistikk
전체 문제 수: 12,032개
다중 정답 문제(True Positive Pairs) 수: 3,718개
부분적으로 잘못된 선택지 문제(Partial False Positive Pairs) 수: 2,124개
완전히 잘못된 선택지 문제(Complete False Positive Pairs) 수: 2,029개
Sitater
"MMLU-Pro+는 다중 정답 선택지를 도입하여 언어 모델의 고차원 추론 능력과 지름길 학습 경향을 효과적으로 평가할 수 있다."
"MMLU-Pro+의 새로운 평가 지표들은 모델의 편향과 추론 능력을 심층적으로 분석할 수 있게 해준다."