이 연구는 대규모 언어 모델의 성능을 평가하기 위해 대조 세트를 활용하는 새로운 접근 방식을 제안한다. 기존의 표준 평가 방식은 모델의 표면적인 패턴 인식 능력만을 측정하는 데 그치지만, 대조 세트를 활용하면 모델의 언어 이해 능력을 보다 심도 있게 평가할 수 있다.
연구진은 SNLI 데이터셋의 검증 세트를 활용하여 자동으로 동의어 교체를 통해 대조 세트를 생성했다. ELECTRA-small 모델을 이용한 실험 결과, 표준 SNLI 데이터셋에서 89.9%의 정확도를 보였지만 대조 세트에서는 72.5%로 17% 감소했다. 이는 모델이 언어의 미묘한 차이를 충분히 이해하지 못하고 있음을 보여준다.
이를 개선하기 위해 연구진은 대조 세트 기반 fine-tuning을 수행했다. 그 결과 대조 세트 정확도가 85.5%까지 향상되었다. 이는 다양한 언어 표현을 포함하는 균형 잡힌 데이터셋의 필요성을 보여주며, 향후 보다 정교하고 효과적인 자연어 추론 모델 개발에 기여할 것으로 기대된다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Manish Sanwa... om arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01569.pdfDiepere vragen