Core Concepts
대규모 언어 모델은 입력 문맥을 충분히 활용하지 못하고 사전 학습된 지식에 과도하게 의존하여 사실적 불일치나 문맥에 맞지 않는 내용을 생성할 수 있다. 본 연구는 관련 및 무관한 문맥을 활용하는 대조적 디코딩 기법을 제안하여 이를 해결한다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 문맥 이해 향상을 위한 새로운 디코딩 기법을 제안한다. LLM은 사전 학습된 매개변수 지식과 입력 문맥의 비매개변수 지식을 활용하지만, 이 두 지식 간 충돌이 발생할 수 있다.
제안 방법은 관련 문맥과 무관한 문맥을 활용하는 대조적 디코딩 기법을 사용한다. 관련 문맥은 질문에 대한 정답을 제공하지만, 무관한 문맥은 오답을 유도한다. 이를 통해 모델은 매개변수 지식과 비매개변수 지식을 균형 있게 활용할 수 있다.
실험 결과, 제안 방법은 기존 디코딩 기법에 비해 우수한 성능을 보였다. 특히 지식 충돌 상황에서 강점을 발휘했다. 또한 모델 크기가 증가할수록 제안 방법의 성능 향상이 두드러졌다. 다양한 지식 인기도 수준의 질문에서도 일관된 성능 향상을 보였다.
Stats
관련 문맥이 제시하는 답변이 모델의 사전 지식과 상충되는 경우, 제안 방법은 관련 문맥의 답변 가능성을 높이고 무관한 문맥의 답변 가능성을 낮추어 정답을 도출할 수 있다.
제안 방법은 기존 디코딩 기법 대비 약 3배 느린 디코딩 속도를 보이지만, 병렬 처리를 통해 이를 개선할 수 있다.
Quotes
"LLM은 입력 문맥을 충분히 활용하지 못하고 사전 학습된 지식에 과도하게 의존하여 사실적 불일치나 문맥에 맞지 않는 내용을 생성할 수 있다."
"제안 방법은 관련 문맥과 무관한 문맥을 활용하는 대조적 디코딩 기법을 사용하여 매개변수 지식과 비매개변수 지식을 균형 있게 활용할 수 있다."