Conceitos Básicos
대규모 언어 모델의 사실적 지식 회상 능력을 종합적으로 평가하고, 이에 영향을 미치는 요인을 분석하였다.
Resumo
이 연구는 대규모 언어 모델(LLM)의 사실적 지식 회상 능력을 종합적으로 평가하고 영향 요인을 분석하였다.
FACT-BENCH라는 벤치마크를 구축하였는데, 이는 20개 도메인, 134개 속성 유형, 3가지 답변 유형, 다양한 지식 인기도 수준을 포함하고 있다.
10개 모델 군의 31개 모델을 벤치마크한 결과, 지식 회상 능력에 대한 지침 학습의 부정적 영향, 모델 크기 증가에 따른 긍정적 효과 등을 관찰하였다.
그러나 최고 성능을 보인 GPT-4도 여전히 상한선과 큰 격차를 보였다.
지식 인기도, 속성 유형 등이 지식 회상 능력을 잘 예측할 수 있는 반면, 도메인은 그렇지 않았다.
대조적 ICL 실험을 통해 모델의 알려진 지식과 모순되는 예시가 큰 모델의 지식 회상 능력을 크게 저하시킨다는 것을 발견하였다.
알려진 지식, 알려지지 않은 지식, 혼합 지식으로 LLaMA-7B를 fine-tuning한 결과, 알려진 지식으로 fine-tuning하는 것이 가장 효과적이었다.
Estatísticas
대규모 언어 모델의 사실적 지식 회상 능력은 지식 인기도와 속성 유형에 따라 크게 달라진다.
지침 학습은 지식 회상 능력을 저하시키며, 모델 크기 증가는 긍정적 효과를 보인다.
대조적 ICL 실험에서 모델의 알려진 지식과 모순되는 예시는 큰 모델의 지식 회상 능력을 크게 저하시킨다.
알려진 지식으로 fine-tuning하는 것이 알려지지 않은 지식이나 혼합 지식으로 fine-tuning하는 것보다 효과적이다.
Citações
"지침 학습은 지식 회상 능력을 저하시킨다."
"모델 크기 증가는 지식 회상 능력 향상에 긍정적 효과를 보인다."
"모델의 알려진 지식과 모순되는 예시는 지식 회상 능력을 크게 저하시킨다."
"알려진 지식으로 fine-tuning하는 것이 가장 효과적이다."