이 논문은 대규모 사전 학습 언어 모델(LLM)의 복잡한 추론 능력을 설명하기 위해 템플릿-내용 구조(T-C 구조)를 제안한다. T-C 구조는 언어 기반 추론 문제에 내재된 구조적 제약으로, 언어 생성 과정을 템플릿 부분과 내용 부분으로 나눌 수 있다.
템플릿 부분은 추론 문제 유형에 따라 상대적으로 고정된 구조를 나타내며, 내용 부분은 구체적인 문제 정보를 담는다. 이러한 구조적 제약으로 인해 LLM이 제한된 데이터로도 복잡한 추론 문제를 해결할 수 있게 된다.
논문은 이 T-C 구조가 LLM의 "내부 태도"를 설명할 수 있다고 주장한다. 즉, LLM은 템플릿 토큰 생성 시 내용 토큰과 독립적으로 행동하며, 이를 통해 추론 능력을 발휘할 수 있다.
또한 T-C 구조를 계층적으로 확장하여 서로 다른 하위 문제를 결합하는 "과제 합성" 능력을 설명한다. 이를 통해 LLM이 복잡한 다단계 추론 문제를 해결할 수 있음을 보인다.
실험 결과는 현존하는 LLM이 T-C 구조를 학습하고 있으며, 이 구조가 추론 성능 향상에 도움이 된다는 것을 보여준다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Haotong Yang... um arxiv.org 04-08-2024
https://arxiv.org/pdf/2310.05452.pdfTiefere Fragen