이 논문은 대형 언어 모델(LLM)의 출력에서 나타나는 과도한 계산과 불필요한 추론을 연구합니다. 저자들은 GSM8K-Zero라는 수학 문제 데이터셋을 구축하여, LLM이 계산이나 추론 없이도 쉽게 답변할 수 있는 문제에서도 불필요한 계산과 추론을 생성하는 경향을 보여줍니다.
실험 결과, 다양한 LLM 모델들이 GSM8K-Zero의 문제에 대해 80% 이상의 경우에서 불필요한 계산 과정을 포함하는 것으로 나타났습니다. 이러한 불필요한 계산은 때로는 잘못된 답변으로 이어지기도 합니다.
저자들은 이러한 현상이 LLM 모델 학습 시 사용되는 보상 모델(reward model)이 길이가 긴 출력을 선호하는 경향 때문일 수 있다고 분석합니다. 실제로 GPT-4와 ChatGPT를 사용하여 실험한 결과, 이 모델들은 정답인 간단한 답변보다 불필요한 계산 과정이 포함된 긴 답변을 더 선호하는 것으로 나타났습니다.
이 논문은 LLM의 출력에서 나타나는 과도한 추론과 계산의 문제를 처음으로 지적하였으며, 이를 개선하기 위한 방향을 제시하고 있습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询