Grunnleggende konsepter
대규모 언어 모델(LLM)은 In-Context 학습을 통해 확률 밀도 함수(PDF)를 추정하는 능력을 보이며, 이는 적응형 커널 밀도 추정(KDE)으로 해석될 수 있습니다.
Sammendrag
LLM을 이용한 밀도 추정 연구 논문 요약
참고문헌: Toni J.B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls. Density estimation with LLMs: a geometric investigation of in-context learning trajectories. arXiv preprint arXiv:2410.05218, 2024.
본 연구는 대규모 언어 모델(LLM)이 In-Context 학습을 통해 주어진 데이터에서 확률 밀도 함수(PDF)를 추정하는 능력을 조사하고, 이러한 In-Context 학습 과정의 기저에 깔린 메커니즘을 분석하는 것을 목표로 합니다.
연구진은 LLaMA-2 모델을 사용하여 다양한 형태의 목표 분포(균등 분포, 가우시안 분포, 무작위 생성 PDF)에 대한 밀도 추정 실험을 수행했습니다. In-Context 학습 과정을 시각화하고 분석하기 위해 Intensive Principal Component Analysis (InPCA) 기법을 활용하여 각 컨텍스트 길이에서 추정된 PDF를 저차원 공간에 임베딩했습니다. 또한, LLaMA의 In-Context 밀도 추정 과정을 기존의 밀도 추정 방법(히스토그램, 가우시안 커널 밀도 추정)과 비교 분석했습니다.