이 연구는 대형 언어 모델(LLM)의 억제 통제 능력을 평가하기 위해 인지 과학의 A-Not-B 실험을 언어 기반 다중 선택 문제 해결 시나리오로 적용했다. 실험 결과, 최신 LLM(예: Llama3-8b)은 문맥 학습(ICL) 상황에서는 일관되게 잘 수행하지만, 문맥이 사소하게 변경되면 최대 83.3%의 성능 저하를 보이며 오류를 일으켰다. 이는 LLM이 유아와 유사한 수준의 억제 통제 능력만을 가지고 있음을 시사한다.
모델 크기, 프롬프트 예시 수, 추론 과제 유형 등이 LLM의 A-Not-B 오류에 영향을 미치는 것으로 나타났다. 더 큰 모델과 더 나은 사전 학습 데이터를 가진 모델이 이 오류에 더 강한 것으로 확인되었다. 또한 자기 설명 기법을 사용해도 이 오류를 완전히 극복하지 못했다. 이는 LLM의 추론 과정에 근본적인 차이가 있음을 시사한다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Pengrui Han,... klokken arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15454.pdfDypere Spørsmål