Core Concepts
NLP 모델의 일반화 실패는 단순히 데이터 분포 변화로만 설명할 수 없으며, 모델 개발 과정에서의 내부적 요인이 중요한 역할을 할 수 있다.
Abstract
이 논문은 NLP 모델의 일반화 실패 원인을 탐구하고, 임상 연구의 원칙을 차용하여 NLP 모델 평가를 위한 체계적인 접근법을 제안한다.
관계 추출 태스크에 대한 사례 연구를 통해, 모델이 데이터 내 표면적 패턴에 의존하여 높은 성능을 달성할 수 있음을 보여준다. 이는 단순히 데이터 분포 변화로 일반화 실패를 설명할 수 없음을 시사한다.
임상 연구의 개념인 내적 타당성과 외적 타당성을 NLP 모델 평가에 적용할 것을 제안한다. 내적 타당성은 모델이 테스트 세트 내에서 언어 능력을 제대로 학습했는지를 확인하는 것이며, 이는 일반화를 위한 필수 전제 조건이다.
대조 세트를 활용한 매칭 기법을 제안하여, 모델의 인과 관계 추론 능력을 평가할 수 있는 방법을 제시한다. 이를 통해 모델이 단순한 표면 패턴에 의존하지 않고 실제 언어 이해 능력을 갖추고 있는지 확인할 수 있다.
대규모 언어 모델의 일반화 능력에 대해서도 논의하며, 이들 모델 역시 내적 타당성 확보가 선행되어야 함을 강조한다.
Stats
관계 추출 태스크에서 참여 개체 간 거리가 모델 예측에 큰 영향을 미치는 것으로 나타났다.
관계 추출 태스크의 일반화 데이터 세트에서 모델의 정확도가 크게 하락했다.
Quotes
"OOD는 항상 일반화 실패의 충분한 설명이 되지 않는다. OOD에 대한 광범위하고 일반적인 정의로 인해 거의 모든 샘플을 OOD로 분류할 수 있다."
"내적 타당성이 확보되지 않은 상태에서 외적 타당성을 논의하는 것은 무의미하다."