이 논문은 SemEval-2024 Task 9 "BRAINTEASER: A Novel Task Defying Common Sense"에 참여한 AILS-NTUA팀의 제출 내용을 설명한다. 이 과제는 두 가지 하위 과제로 구성되어 있는데, 문장 퍼즐(Sentence Puzzle)과 단어 퍼즐(Word Puzzle)이다.
연구팀은 다양한 크기의 사전 학습된 트랜스포머 기반 언어 모델을 미세 조정하여 평가했다. 그 결과, 작은 규모의 인코더 모델을 미세 조정하거나 대형 언어 모델을 추가 학습하면 기존 베이스라인 모델(ChatGPT)보다 20% 이상 높은 성능을 달성할 수 있음을 확인했다.
문장 퍼즐 과제에서는 대부분의 모델이 안정적인 성능을 보였지만, 단어 퍼즐 과제에서는 모델의 성능 편차가 크게 나타났다. 이는 단어 퍼즐이 문장 퍼즐보다 더 독특한 인지적 요구사항을 가지고 있기 때문으로 분석된다.
연구팀은 모델의 오류 분석을 통해 측면 사고 퍼즐 해결에 어려움을 겪는 요인을 파악하고자 했다. 또한 모델의 설명을 함께 제공하여 모델의 추론 과정을 이해하고자 했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문