Core Concepts
대규모 사전 학습 언어 모델은 제한된 학습 데이터로도 다양한 복잡한 추론 문제를 해결할 수 있는데, 이는 언어 생성 과정의 내재적 구조적 제약인 템플릿-내용 구조 때문이다.
Abstract
이 논문은 대규모 사전 학습 언어 모델(LLM)의 복잡한 추론 능력을 설명하기 위해 템플릿-내용 구조(T-C 구조)를 제안한다. T-C 구조는 언어 기반 추론 문제에 내재된 구조적 제약으로, 언어 생성 과정을 템플릿 부분과 내용 부분으로 나눌 수 있다.
템플릿 부분은 추론 문제 유형에 따라 상대적으로 고정된 구조를 나타내며, 내용 부분은 구체적인 문제 정보를 담는다. 이러한 구조적 제약으로 인해 LLM이 제한된 데이터로도 복잡한 추론 문제를 해결할 수 있게 된다.
논문은 이 T-C 구조가 LLM의 "내부 태도"를 설명할 수 있다고 주장한다. 즉, LLM은 템플릿 토큰 생성 시 내용 토큰과 독립적으로 행동하며, 이를 통해 추론 능력을 발휘할 수 있다.
또한 T-C 구조를 계층적으로 확장하여 서로 다른 하위 문제를 결합하는 "과제 합성" 능력을 설명한다. 이를 통해 LLM이 복잡한 다단계 추론 문제를 해결할 수 있음을 보인다.
실험 결과는 현존하는 LLM이 T-C 구조를 학습하고 있으며, 이 구조가 추론 성능 향상에 도움이 된다는 것을 보여준다.
Stats
학습 데이터 크기는 LLM의 매개변수 수보다 훨씬 작다.
학습 목표는 단순히 다음 단어 확률 분포를 모방하는 것이다.
그러나 LLM은 복잡한 추론 문제를 해결할 수 있다.
Quotes
"LLM은 단순히 학습 데이터를 모방하는 '앵무새'가 아니라는 의문이 제기되어 왔다."
"LLM이 제한된 데이터로도 복잡한 추론 문제를 해결할 수 있는 이유를 설명하는 것이 이 논문의 목표이다."