Core Concepts
대규모 언어 모델의 놀라운 일반화 및 추론 능력의 내부 메커니즘을 설명 가능성 관점에서 탐구한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 내부 작동 원리를 설명 가능성 관점에서 체계적으로 살펴본다.
첫째, 모델 아키텍처 내에서 지식이 어떻게 구성되는지 분석한다. 뉴런, 회로, 주의 집중 헤드 등 모델 구성 요소의 기능을 기계적 해석 가능성 기법을 통해 이해한다.
둘째, 중간 표현에 어떤 지식이 인코딩되는지 탐구한다. 프로빙 기법과 표현 엔지니어링을 활용하여 모델이 세계 지식과 사실 지식을 어떻게 학습하는지 분석한다.
셋째, 일반화 능력이 훈련 과정에서 어떻게 달성되는지 조사한다. 그로킹(grokking)과 기억화(memorization) 현상을 기계적 관점에서 설명한다.
마지막으로, 이러한 통찰을 활용하여 모델 편집, 모델 효율성 향상, 인간 가치 정렬 등의 방법을 제안한다.
Stats
대규모 언어 모델은 언어 이해 및 생성 분야에서 괄목할 만한 발전을 이루었다.
그러나 이들 모델의 일반화 및 추론 능력의 내부 메커니즘은 여전히 불투명하다.
이는 환각, 유해성, 인간 가치와의 불일치 등의 문제를 야기하여 LLM의 안전하고 유익한 배포를 저해한다.
Quotes
"LLM의 놀라운 일반화 및 추론 능력의 '어떻게'와 '왜'는 여전히 잘 이해되지 않고 있다."
"LLM의 내부 작동 원리에 대한 깊이 있는 이해는 이들의 안전하고 책임감 있는 배포를 위해 필수적이다."