이 연구는 LLM이 자신의 실수로부터 학습하고 이를 활용하여 추론 능력을 향상시킬 수 있는지 탐구한다.
먼저 COTERRORSET이라는 새로운 벤치마크를 구축하였다. 이 데이터셋은 609,432개의 질문으로 구성되어 있으며, 각 질문에는 정답 참조와 PaLM2가 생성한 오답 참조가 포함되어 있다. 이를 통해 LLM이 어떤 유형의 실수를 하는지, 그 이유는 무엇인지 분석할 수 있다.
이를 바탕으로 두 가지 새로운 방법론을 제안한다:
자기 성찰 프롬프팅(self-rethinking prompting): LLM에게 자신의 이전 실수를 인지하고 이를 바탕으로 답변을 수정하도록 유도한다.
실수 튜닝(mistake tuning): LLM을 정답 참조와 오답 참조를 모두 활용하여 fine-tuning한다.
실험 결과, 두 방법론 모두 다양한 추론 과제에서 LLM의 성능을 일관되게 향상시켰다. 이는 LLM이 자신의 실수로부터 학습할 수 있음을 보여준다.
마지막으로 LLM의 오류 유형을 심층적으로 분석하여, 향후 연구 방향을 제시한다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yongqi Tong,... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20046.pdfYêu cầu sâu hơn