Khái niệm cốt lõi
대규모 언어 모델은 귀납적 추론 과정에서 규칙 기반 추론 능력은 부족하지만, 주어진 예시와 유사한 특징을 가진 이웃 사례를 활용하는 이웃 기반 추론에는 뛰어난 성능을 보인다.
Tóm tắt
MIRAGE: 대규모 언어 모델의 귀납적 추론 과정 평가 및 설명
본 연구는 대규모 언어 모델(LLM)의 귀납적 추론 과정을 평가하고 그 메커니즘을 분석하는 것을 목표로 한다. 특히, LLM이 인간처럼 관찰된 사실들로부터 추상적인 규칙을 생성하고 이를 새로운 사례에 적용하는 규칙 기반 추론을 수행하는지, 아니면 다른 메커니즘에 의존하는지를 밝히고자 한다.
데이터셋 구축: 다양한 형태, 입력 분포, 난이도를 가진 테스트 데이터를 생성할 수 있는 MIRAGE 데이터셋을 구축했다. MIRAGE는 벡터 연산 기반의 규칙 라이브러리를 기반으로 다양한 난이도의 귀납적 추론 문제를 생성하며, 리스트 변환, 실제 문제, 코드 생성, 문자열 변환 등 네 가지 시나리오를 포함한다.
평가 방법: GPT-4, GPT-4o, Claude-3.5, Llama2-13B, Llama3-8B 등 다양한 LLM을 사용하여 MIRAGE 데이터셋에 대한 성능을 평가했다.
메커니즘 분석: LLM의 귀납적 추론 과정을 분석하기 위해 다양한 프롬프트 방법(0-shot, few-shot, CoT, SC, SR, HR)을 적용하고, 관찰된 사실의 수 및 테스트 케이스와의 유사도에 따른 성능 변화를 분석했다.