Vibe-Eval은 269개의 다양하고 어려운 시각적 이해 프롬프트로 구성된 새로운 오픈 벤치마크이며, 전문가가 작성한 정답 응답을 제공합니다. Vibe-Eval은 멀티모달 채팅 모델의 일상적인 작업 수행 능력을 확인하고 현재 최첨단 모델의 역량을 엄격하게 테스트하는 두 가지 목표를 가지고 있습니다.