Core Concepts
대규모 언어 모델은 관련 과거 경험으로부터 유추하여 새로운 과제를 해결할 수 있는 능력이 제한적이다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 유추 추론 능력을 체계적으로 평가합니다. 다양한 추론 과제에 대해 실험을 수행하고 분석한 결과, LLM은 항상 유추 추론을 수행할 수 있는 것은 아닌 것으로 나타났습니다. 특히 수학 추론 과제에서는 관련 예제보다 무작위 예제가 더 나은 성능을 보였습니다. 이는 관련성이 아닌 생성된 예제의 정확성이 LLM의 성능에 더 중요한 요인임을 시사합니다. 이러한 발견을 바탕으로 저자들은 추론 비용을 크게 줄이면서도 우수한 성능을 보이는 두 가지 접근법을 제안합니다.
Stats
관련 예제를 생성하는 것보다 무작위 생물학 예제를 생성하는 것이 GSM8K 과제에서 약 4% 더 나은 성능을 보였습니다.
MATH 과제에서 관련 예제의 정확도가 다른 방법들에 비해 낮았습니다.
Quotes
"관련성이 아닌 생성된 예제의 정확성이 LLM의 성능에 더 중요한 요인"
"LLM은 항상 유추 추론을 수행할 수 있는 것은 아닌 것으로 나타났습니다."