이 논문은 대규모 사전 학습 언어 모델(LLM)의 복잡한 추론 능력을 설명하기 위해 템플릿-내용 구조(T-C 구조)를 제안한다. T-C 구조는 언어 기반 추론 문제에 내재된 구조적 제약으로, 언어 생성 과정을 템플릿 부분과 내용 부분으로 나눌 수 있다.
템플릿 부분은 추론 문제 유형에 따라 상대적으로 고정된 구조를 나타내며, 내용 부분은 구체적인 문제 정보를 담는다. 이러한 구조적 제약으로 인해 LLM이 제한된 데이터로도 복잡한 추론 문제를 해결할 수 있게 된다.
논문은 이 T-C 구조가 LLM의 "내부 태도"를 설명할 수 있다고 주장한다. 즉, LLM은 템플릿 토큰 생성 시 내용 토큰과 독립적으로 행동하며, 이를 통해 추론 능력을 발휘할 수 있다.
또한 T-C 구조를 계층적으로 확장하여 서로 다른 하위 문제를 결합하는 "과제 합성" 능력을 설명한다. 이를 통해 LLM이 복잡한 다단계 추론 문제를 해결할 수 있음을 보인다.
실험 결과는 현존하는 LLM이 T-C 구조를 학습하고 있으며, 이 구조가 추론 성능 향상에 도움이 된다는 것을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haotong Yang... lúc arxiv.org 04-08-2024
https://arxiv.org/pdf/2310.05452.pdfYêu cầu sâu hơn