이 연구는 대규모 언어 모델의 성능을 평가하기 위해 대조 세트를 활용하는 새로운 접근 방식을 제안한다. 기존의 표준 평가 방식은 모델의 표면적인 패턴 인식 능력만을 측정하는 데 그치지만, 대조 세트를 활용하면 모델의 언어 이해 능력을 보다 심도 있게 평가할 수 있다.
연구진은 SNLI 데이터셋의 검증 세트를 활용하여 자동으로 동의어 교체를 통해 대조 세트를 생성했다. ELECTRA-small 모델을 이용한 실험 결과, 표준 SNLI 데이터셋에서 89.9%의 정확도를 보였지만 대조 세트에서는 72.5%로 17% 감소했다. 이는 모델이 언어의 미묘한 차이를 충분히 이해하지 못하고 있음을 보여준다.
이를 개선하기 위해 연구진은 대조 세트 기반 fine-tuning을 수행했다. 그 결과 대조 세트 정확도가 85.5%까지 향상되었다. 이는 다양한 언어 표현을 포함하는 균형 잡힌 데이터셋의 필요성을 보여주며, 향후 보다 정교하고 효과적인 자연어 추론 모델 개발에 기여할 것으로 기대된다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Manish Sanwa... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01569.pdfשאלות מעמיקות