Core Concepts
현대 대규모 언어 모델(LLM)은 복잡한 과제를 해결하는 데 있어 뛰어난 성과를 보이지만, 단순한 과제에서도 예상치 못한 실패를 겪는다. 이는 구성적 및 조건부 추론과 같은 핵심 인지 기능을 정확히 평가하기 위한 새로운 벤치마크가 필요함을 시사한다.
Abstract
이 연구는 구성적 및 조건부 추론이라는 인간 인지의 핵심 요소를 실제 세계의 비행기 예약 문제에 접목한 GroundCocoa라는 새로운 벤치마크를 소개한다. 이 과제는 사용자 선호도와 가용 비행편 옵션을 정확히 일치시키는 것을 목표로 한다.
실험 결과, 현대 최고 성능의 언어 모델인 GPT-4 Turbo도 67%의 정확도를 넘지 못하는 등, 언어 모델의 구성적 및 조건부 추론 능력에 상당한 격차가 있음이 드러났다. 특히 조건부 추론은 모든 모델에 큰 도전과제로 나타났다.
또한 연구진은 엔트로피 분석을 통해 모델의 혼란 수준을 정량화하고, 비전형적인 사용자 요구사항에 대한 모델의 견고성을 평가했다. 이를 통해 언어 모델의 편향과 한계를 보다 깊이 있게 이해할 수 있었다.
Stats
비행기 요금은 12,400원 미만이어야 한다.
비행기 요금은 500원 미만이어야 한다.
총 여행 시간은 22시간 30분을 초과해야 한다.
총 여행 시간은 22시간 30분을 초과하지 않아야 한다.
Quotes
"현대 대규모 언어 모델(LLM)은 복잡한 과제를 해결하는 데 있어 뛰어난 성과를 보이지만, 단순한 과제에서도 예상치 못한 실패를 겪는다."
"GPT-4 Turbo도 67%의 정확도를 넘지 못하는 등, 언어 모델의 구성적 및 조건부 추론 능력에 상당한 격차가 있음이 드러났다."