기존 데이터셋의 한계를 극복하고 언어 모델의 추론 능력을 향상시키기 위해, 모델 자체가 자동으로 추론 과정을 생성하고 이를 활용하여 강화 학습을 수행하는 방법을 제안한다.
THOUGHTSCULPT은 중간 수정 메커니즘을 통해 언어 모델이 이전 출력을 지속적으로 개선할 수 있도록 하는 일반적인 추론 및 검색 방법이다.
대규모 사전 학습 언어 모델은 제한된 학습 데이터로도 다양한 복잡한 추론 문제를 해결할 수 있는데, 이는 언어 생성 과정의 내재적 구조적 제약인 템플릿-내용 구조 때문이다.
언어 모델은 프롬프트나 외부 도구 없이도 정확한 추론 단계에서 학습하여 추론 성능을 향상시킬 수 있다.
언어 모델의 복잡한 추론 능력을 향상시키기 위해 체인 사고가 아닌 사고 그래프를 활용하는 새로운 접근법을 제안한다.
본 연구에서는 단일 문맥 배치 샘플링 상황에서 언어 모델 추론을 위한 이중 주의 메커니즘을 제안한다. 이 접근법은 높은 배치 크기와 긴 문맥 길이에서 발생하는 과도한 메모리 I/O 비용을 줄이는 것을 목표로 한다.