Core Concepts
대규모 언어 모델(LLM)의 지식을 효율적으로 업데이트하기 위해 일관된 In-Context Editing(ICE)이라는 새로운 접근 방식을 제안합니다. ICE는 기존의 fine-tuning 방법과 달리 one-hot target이 아닌 문맥 분포를 목표로 하여 모델을 최적화합니다. 이를 통해 새로운 지식을 효과적으로 통합하면서도 기존 정보의 무결성을 유지하고 overfitting을 방지합니다.
Abstract
In-Context Editing: 자가 유도 분포를 통해 지식을 학습하는 방법
본 연구 논문에서는 대규모 언어 모델(LLM)의 지식을 효율적으로 업데이트하기 위해 **일관된 In-Context Editing(ICE)**이라는 새로운 접근 방식을 제안합니다. ICE는 기존 fine-tuning 방법의 overfitting, 일반화 성능 저하, 부자연스러운 언어 생성과 같은 문제점을 해결하고자 합니다.
끊임없이 변화하는 세상에서 LLM은 최신 정보를 반영하고 새로운 지식을 통합하기 위해 지속적인 업데이트가 필요합니다. 하지만 기존의 fine-tuning 방식은 새로운 정보를 통합하기 위해 모델 전체를 다시 학습해야 하는 경우가 많아 비효율적이며, overfitting과 catastrophic forgetting과 같은 문제를 야기할 수 있습니다.
ICE는 모델의 in-context learning 능력을 활용하여 one-hot target이 아닌 문맥 분포를 목표로 모델을 최적화합니다. 구체적으로, ICE는 추가적인 context가 있을 때와 없을 때의 출력 분포를 일치시키도록 학습하여 모델이 새로운 지식을 효과적으로 내재화하도록 유도합니다.
ICE의 작동 방식
Context 생성: 업데이트할 지식을 포함하는 context를 생성합니다. 예를 들어, "현재 미국 대통령은 조 바이든입니다."와 같은 문맥을 생성할 수 있습니다.
문맥 손실 함수: context가 포함된 입력과 포함되지 않은 입력에 대한 모델의 출력 분포 간의 KL divergence를 최소화하는 손실 함수를 사용합니다.
최적화: fine-tuning loss와 문맥 손실 함수를 결합하여 모델을 최적화합니다. 이때, gradient clipping 기법을 사용하여 모델이 초기 매개변수에서 너무 멀어지는 것을 방지합니다.