이 연구는 LLM이 자신의 실수로부터 학습하고 이를 활용하여 추론 능력을 향상시킬 수 있는지 탐구한다.
먼저 COTERRORSET이라는 새로운 벤치마크를 구축하였다. 이 데이터셋은 609,432개의 질문으로 구성되어 있으며, 각 질문에는 정답 참조와 PaLM2가 생성한 오답 참조가 포함되어 있다. 이를 통해 LLM이 어떤 유형의 실수를 하는지, 그 이유는 무엇인지 분석할 수 있다.
이를 바탕으로 두 가지 새로운 방법론을 제안한다:
자기 성찰 프롬프팅(self-rethinking prompting): LLM에게 자신의 이전 실수를 인지하고 이를 바탕으로 답변을 수정하도록 유도한다.
실수 튜닝(mistake tuning): LLM을 정답 참조와 오답 참조를 모두 활용하여 fine-tuning한다.
실험 결과, 두 방법론 모두 다양한 추론 과제에서 LLM의 성능을 일관되게 향상시켰다. 이는 LLM이 자신의 실수로부터 학습할 수 있음을 보여준다.
마지막으로 LLM의 오류 유형을 심층적으로 분석하여, 향후 연구 방향을 제시한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yongqi Tong,... pada arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20046.pdfPertanyaan yang Lebih Dalam