LatEval은 측면 사고 퍼즐의 기본 설정을 활용하여, 호스트와 플레이어 간의 상호작용을 통해 LLM의 측면 사고 능력을 평가한다.
플레이어 모델(평가 대상 LLM)은 주어진 퍼즐에 기반하여 유용한 질문을 던지고, 호스트(강력한 LLM)의 응답을 통해 정보를 점진적으로 획득하여 최종적인 추론(답변)을 제공한다.
평가 지표는 다음과 같다:
실험 결과, 대부분의 LLM이 측면 사고 능력이 매우 부족한 것으로 나타났다. 심지어 가장 강력한 GPT-4도 만족스러운 성과를 내지 못했으며, 대부분의 오픈소스 모델은 이 과제를 완수하기 어려운 것으로 확인되었다. 이는 LatEval이 LLM에 매우 도전적인 과제임을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문