Core Concepts
현재 모델의 창의적이고 비관습적인 사고 능력을 평가하기 위한 새로운 과제
Abstract
이 논문은 SemEval 2024 과제 9인 BRAINTEASER(S)를 소개합니다. BRAINTEASER(S)는 기존의 BRAINTEASER 벤치마크를 바탕으로 하며, 수직적 사고가 아닌 수평적 사고 능력을 평가하는 것을 목표로 합니다.
BRAINTEASER(S)는 문장 퍼즐(Sentence Puzzle)과 단어 퍼즐(Word Puzzle) 두 가지 하위 과제로 구성되어 있습니다. 이 과제들은 상식을 거스르는 추론을 요구하며, 기존의 상식 추론 과제와는 차별화됩니다.
BRAINTEASER(S)는 학습 데이터와 평가 데이터로 나뉘어 있어, 모델의 일반화 능력을 평가할 수 있습니다. 또한 원본 퍼즐과 의미적/맥락적 재구성 퍼즐을 포함하여, 모델의 일관된 추론 능력을 측정할 수 있습니다.
이 과제에는 총 182개 팀이 참여했으며, 483개의 제출이 이루어졌습니다. 참여자들은 다양한 방법론을 시도했으며, 그 결과를 분석한 내용이 제공됩니다. 이를 통해 현재 모델의 수평적 사고 능력과 한계점을 확인할 수 있습니다.
Stats
문장 퍼즐에서 인간 평가 정확도는 0.920이며, ChatGPT와 RoBERTa-L의 정확도는 각각 0.627, 0.434입니다.
단어 퍼즐에서 인간 평가 정확도는 0.917이며, ChatGPT와 RoBERTa-L의 정확도는 각각 0.535, 0.207입니다.
Quotes
"수직적 사고는 논리적이고 상식적인 추론에 의존하지만, 수평적 사고는 상식적 연관성을 거부하고 비관습적인 사고를 통해 이를 극복해야 합니다."
"현재 모델의 수평적 사고 능력은 도전적이지만 주목받지 못했습니다."