이 논문은 자연어 추론(NLI) 작업을 활용하여 효율적인 범용 분류기를 구축하는 방법을 설명한다.
NLI 작업의 원리와 범용성: NLI 작업은 주어진 문장(premise)과 가설(hypothesis) 간의 추론 관계(함축, 중립, 모순)를 판단하는 것이다. 이 작업은 다양한 분류 작업(주제, 감정, 태도 등)을 가설로 표현하여 수행할 수 있어 범용성이 높다.
데이터 준비: 5개의 NLI 데이터셋과 28개의 다양한 분류 작업 데이터셋을 수집하고 정제한다. 각 분류 작업의 레이블을 가설로 표현한다.
모델 학습 및 평가: DeBERTa-v3 모델을 NLI 데이터와 분류 작업 데이터로 학습시킨다. 이때 일부 데이터셋은 홀드아웃하여 제외하고 평가한다.
결과 분석: NLI 데이터만으로 학습한 모델보다 분류 작업 데이터를 추가로 학습한 모델의 성능이 9.4% 향상되었다. 이는 다양한 작업에 대한 긍정적 전이 효과를 보여준다.
이 연구는 효율적인 범용 분류기 구축을 위한 실용적인 가이드라인과 오픈소스 코드를 제공한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania