Kernekoncepter
대규모 언어 모델은 귀납적 추론 과정에서 규칙 기반 추론 능력은 부족하지만, 주어진 예시와 유사한 특징을 가진 이웃 사례를 활용하는 이웃 기반 추론에는 뛰어난 성능을 보인다.
Resumé
MIRAGE: 대규모 언어 모델의 귀납적 추론 과정 평가 및 설명
본 연구는 대규모 언어 모델(LLM)의 귀납적 추론 과정을 평가하고 그 메커니즘을 분석하는 것을 목표로 한다. 특히, LLM이 인간처럼 관찰된 사실들로부터 추상적인 규칙을 생성하고 이를 새로운 사례에 적용하는 규칙 기반 추론을 수행하는지, 아니면 다른 메커니즘에 의존하는지를 밝히고자 한다.
데이터셋 구축: 다양한 형태, 입력 분포, 난이도를 가진 테스트 데이터를 생성할 수 있는 MIRAGE 데이터셋을 구축했다. MIRAGE는 벡터 연산 기반의 규칙 라이브러리를 기반으로 다양한 난이도의 귀납적 추론 문제를 생성하며, 리스트 변환, 실제 문제, 코드 생성, 문자열 변환 등 네 가지 시나리오를 포함한다.
평가 방법: GPT-4, GPT-4o, Claude-3.5, Llama2-13B, Llama3-8B 등 다양한 LLM을 사용하여 MIRAGE 데이터셋에 대한 성능을 평가했다.
메커니즘 분석: LLM의 귀납적 추론 과정을 분석하기 위해 다양한 프롬프트 방법(0-shot, few-shot, CoT, SC, SR, HR)을 적용하고, 관찰된 사실의 수 및 테스트 케이스와의 유사도에 따른 성능 변화를 분석했다.