본 연구에서는 대규모 언어 모델의 사고 및 추론 능력을 향상시키기 위한 새로운 모델 아키텍처인 TaS를 제안한다. TaS는 언어 모델이 먼저 질문에 대한 생각을 생성하고, 그 생각을 바탕으로 응답을 출력하는 구조를 가진다.
구체적으로, 연구진은 질문-응답 샘플에서 생각 내용을 주석화하거나 생성하는 다양한 파이프라인을 설계했다. 그리고 언어 모델의 중간 층에 언어 헤드를 추가하여 생각 층으로 동작하도록 했다. 이렇게 생각 내용으로 증강된 데이터로 언어 모델을 학습시킴으로써, 생각 층이 자동으로 합리적인 생각을 생성하고 최종적으로 더 합리적인 응답을 출력할 수 있게 했다.
정성적 사례와 정량적 결과를 통해 TaS의 효과성과 성능을 검증했다. 특히 이론 of 마음 (Theory of Mind) 작업에서 TaS가 기존 접근법을 크게 능가하는 성과를 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы