Core Concepts
언어 모델은 훈련 데이터에 없는 임의의 사실을 일정 비율로 생성할 수밖에 없다.
Abstract
이 논문은 언어 모델이 허구를 생성하는 근본적인 이유를 분석합니다.
주요 내용은 다음과 같습니다:
언어 모델은 훈련 데이터에 없는 임의의 사실(factoid)을 일정 비율로 생성할 수밖에 없습니다. 이는 모델이 통계적으로 잘 교정되어 있기 때문입니다.
이러한 허구 생성은 훈련 데이터의 품질이나 모델 아키텍처와 무관하며, 언어 모델의 예측 성능을 높이는 것이 필연적으로 허구 생성으로 이어집니다.
그러나 모델이 생성하는 허구의 비율은 사실의 유형에 따라 다릅니다. 예를 들어 논문 인용과 같이 여러 번 등장하는 사실은 상대적으로 허구 생성 비율이 낮습니다.
이러한 분석 결과는 언어 모델의 허구 문제를 완전히 해결하기 어려움을 시사합니다. 대신 사실의 유형에 따라 차별화된 접근이 필요할 것으로 보입니다.
Stats
훈련 데이터 크기 n개
관찰된 사실(factoid) 수 |O|
관찰되지 않은 사실(factoid) 수 |U|
정확히 한 번 관찰된 사실(factoid) 비율 d
MF
Quotes
"언어 모델은 훈련 데이터에 없는 임의의 사실을 일정 비율로 생성할 수밖에 없다."
"이러한 허구 생성은 훈련 데이터의 품질이나 모델 아키텍처와 무관하며, 언어 모델의 예측 성능을 높이는 것이 필연적으로 허구 생성으로 이어진다."
"모델이 생성하는 허구의 비율은 사실의 유형에 따라 다르다."