본 논문에서는 대규모 언어 모델(LM)이 사실 정보를 처리하는 방식에 대한 정확한 해석을 위해 사실 완성 작업에서 나타나는 다양한 예측 시나리오를 제시하고 분석합니다. 기존 연구에서는 LM이 사실 정보를 처리하는 과정을 단순히 '사실 회상'으로만 해석하는 경향이 있었지만, 실제로는 단순 추측, 추론, 정확한 사실 회상 등 다양한 방식으로 예측이 이루어질 수 있습니다.
저자들은 LM의 예측 행동을 정확하게 해석하기 위해 네 가지 예측 시나리오를 제시합니다. 1) 일반적인 언어 모델링: 사실과 관련 없는 이야기 생성과 같은 작업, 2) 추측: 모델이 사실에 대한 확신 없이 답변을 생성하는 경우, 3) 추론적 회상: 표면적인 단서를 기반으로 추론하여 답변을 생성하는 경우 (예: 스웨덴 이름을 가진 사람은 스웨덴에서 태어났을 것이라고 가정), 4) 정확한 사실 회상: 모델이 정확한 답변을 기억하고 이를 기반으로 예측하는 경우.
본 논문에서는 각 예측 시나리오를 구분하기 위한 진단 기준을 제시하고, 이를 바탕으로 모델별 PRISM 데이터 세트를 구축합니다. PRISM 데이터 세트는 GPT-2 XL, Llama 2 7B, Llama 2 13B 모델에 대해 각각 구축되었으며, 각 모델의 편향과 매개변수 메모리에 따라 다르게 구성됩니다.
저자들은 인기 있는 해석 방법론인 인과 추적(CT)을 사용하여 각 예측 시나리오에 대한 LM 해석 결과를 비교 분석합니다. 그 결과 각 시나리오에 따라 CT 결과가 다르게 나타났으며, 특히 정확한 사실 회상 시나리오에서만 기존 연구에서 제시된 것처럼 (마지막 주어 토큰, 중간 계층) MLP 모듈이 중요한 역할을 한다는 것을 확인했습니다.
결론적으로 본 논문은 LM의 사실 완성 능력에 대한 정확하고 심층적인 이해를 위해서는 다양한 예측 시나리오를 구분하여 분석해야 한다는 점을 강조합니다. 또한, 모델별 PRISM 데이터 세트 구축 방법론을 제시함으로써 향후 LM 해석 연구에 기여할 수 있을 것으로 기대됩니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문