이 연구는 문장 유사도 탐지 모델의 성능 평가를 위해 PARAPHRASUS라는 포괄적인 벤치마크를 제안한다. PARAPHRASUS는 다양한 유형의 문장 유사도 데이터셋을 포함하며, 문장 유사도 탐지 모델의 다차원적 평가와 정교한 모델 선택을 가능하게 한다.
연구진은 먼저 기존 문장 유사도 데이터셋의 한계를 발견했다. 대표적인 PAWS-X 데이터셋에서 대형 언어 모델(LLM)의 성능이 매우 낮게 나타났지만, 이를 통해 모델의 실제 문장 유사도 이해 능력을 판단하기 어려웠다. 이에 따라 연구진은 PARAPHRASUS를 개발했다.
PARAPHRASUS는 총 10개의 데이터셋으로 구성되며, 문장 유사도 탐지 모델의 성능을 세 가지 목적(분류, 최소화, 최대화)으로 평가한다. 데이터셋은 기존 자연어 추론, 의미 유사도 등의 작업에서 재활용되었으며, 두 개의 새로운 데이터셋도 추가되었다.
연구진은 PARAPHRASUS를 활용해 LLM과 훈련된 모델의 성능을 분석했다. 그 결과, 단일 데이터셋에 대한 성능만으로는 모델의 실제 일반화 능력을 판단하기 어려우며, 다양한 유형의 데이터셋을 통한 종합적인 평가가 필요함을 확인했다. 또한 LLM의 경우 문장 유사도 탐지에서 여전히 한계가 있음을 발견했다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы