Core Concepts
대규모 언어 모델이 생성한 문장 중 상당 부분이 검색된 문서나 사전 학습 데이터에 근거하지 않은 것으로 나타났다. 이는 모델 크기, 디코딩 전략, 지시 튜닝 등의 요인에 따라 달라지지만, 가장 큰 모델에서도 여전히 상당한 비율의 근거 없는 문장이 생성되었다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 검색 보조 장문 생성에서의 근거성을 실증적으로 분석했다. 주요 내용은 다음과 같다:
모델이 생성한 문장 중 상당 부분이 검색된 문서나 사전 학습 데이터에 근거하지 않은 것으로 나타났다. 이는 모델 크기, 디코딩 전략, 지시 튜닝 등의 요인에 따라 달라지지만, 가장 큰 모델에서도 여전히 상당한 비율의 근거 없는 문장이 생성되었다.
모델 크기가 증가할수록 근거성이 향상되는 경향을 보였다. 특히 Falcon 40B와 180B 모델에서 근거성이 크게 향상되었다.
빔 서치 디코딩은 근거성을 높이는 데 효과적이었다. 반면 무작위 샘플링은 근거성이 낮았다.
지시 튜닝은 모델의 정확성과 근거성을 모두 향상시켰다.
이 연구는 LLM의 근거성 문제를 실증적으로 분석하고, 이를 개선할 수 있는 방안을 제시했다. 특히 모델 크기, 디코딩 전략, 지시 튜닝 등의 요인이 근거성에 미치는 영향을 밝혔다.
Stats
모델이 생성한 문장 중 약 25%가 검색된 문서나 사전 학습 데이터에 근거하지 않은 것으로 나타났다.
Falcon 180B 모델의 경우, 정답을 포함한 문장 중 약 25%가 근거 없는 것으로 나타났다.
빔 서치 디코딩을 사용하면 근거성이 크게 향상되었다.
지시 튜닝을 적용한 모델은 정확성과 근거성이 모두 향상되었다.
Quotes
"모델이 생성한 문장 중 상당 부분이 검색된 문서나 사전 학습 데이터에 근거하지 않은 것으로 나타났다."
"가장 큰 모델에서도 여전히 상당한 비율의 근거 없는 문장이 생성되었다."
"빔 서치 디코딩은 근거성을 높이는 데 효과적이었다."
"지시 튜닝은 모델의 정확성과 근거성을 모두 향상시켰다."