Core Concepts
대형 언어 모델의 매개변수 지식을 활용하여 문맥 내 예시를 구성하면 지식 집약적 과제의 성능을 향상시킬 수 있다.
Abstract
이 연구는 대형 언어 모델(LLM)의 매개변수 지식을 활용하여 문맥 내 예시를 구성하는 방법을 탐구한다. 주요 내용은 다음과 같다:
알려진 예시와 알려지지 않은 예시를 구분하여 제공하는 것이 가장 효과적이다. 알려진 예시와 알려지지 않은 예시를 혼합하여 제공하는 것이 단독으로 알려진 예시나 알려지지 않은 예시를 제공하는 것보다 성능이 우수하다.
문맥 내 예시의 답변 순서를 모델의 매개변수 지식 수준에 따라 배열하는 것이 성능 향상에 도움이 된다. 특히 확신도가 높은 답변을 먼저 제시하는 것이 효과적이다.
모델의 매개변수 지식 수준에 따른 답변 순서 배열은 모델이 생성하는 답변 수와 정확도에 영향을 미친다. 모델이 잘 알고 있는 답변을 먼저 제시하면 더 많은 답변을 생성하고 정확도도 높아진다.
이러한 효과는 Llama2 모델에서 두드러지게 나타났으며, OPT 모델에서는 상대적으로 작았다. 이는 Llama2 모델이 OPT 모델에 비해 더 풍부한 매개변수 지식을 가지고 있기 때문으로 보인다.
Stats
모델이 문맥 내 예시의 답변을 정확하게 예측할 수 있는 경우, 해당 답변의 perplexity가 낮다.
Llama2 모델은 OPT 모델에 비해 대부분의 답변에 대해 낮은 perplexity를 보인다.
Quotes
"문맥 내 학습은 질문 답변과 같은 지식 집약적 과제의 성능을 향상시킬 수 있다. 이러한 시나리오에서 문맥 내 예시는 언어 모델(LM)이 매개변수 지식을 활용하도록 한다."
"우리의 실험 결과는 '알려지지 않은' 예시로 프롬프팅하면 성능이 저하될 수 있다는 것을 보여준다. 이는 모델의 매개변수 지식을 활용하기보다는 환각을 유발할 수 있기 때문이다."