이 논문은 대형 언어 모델(LLM)의 출력에서 나타나는 과도한 계산과 불필요한 추론을 연구합니다. 저자들은 GSM8K-Zero라는 수학 문제 데이터셋을 구축하여, LLM이 계산이나 추론 없이도 쉽게 답변할 수 있는 문제에서도 불필요한 계산과 추론을 생성하는 경향을 보여줍니다.
실험 결과, 다양한 LLM 모델들이 GSM8K-Zero의 문제에 대해 80% 이상의 경우에서 불필요한 계산 과정을 포함하는 것으로 나타났습니다. 이러한 불필요한 계산은 때로는 잘못된 답변으로 이어지기도 합니다.
저자들은 이러한 현상이 LLM 모델 학습 시 사용되는 보상 모델(reward model)이 길이가 긴 출력을 선호하는 경향 때문일 수 있다고 분석합니다. 실제로 GPT-4와 ChatGPT를 사용하여 실험한 결과, 이 모델들은 정답인 간단한 답변보다 불필요한 계산 과정이 포함된 긴 답변을 더 선호하는 것으로 나타났습니다.
이 논문은 LLM의 출력에서 나타나는 과도한 추론과 계산의 문제를 처음으로 지적하였으며, 이를 개선하기 위한 방향을 제시하고 있습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Cheng-Han Ch... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2401.11467.pdfYêu cầu sâu hơn