Vibe-Eval은 269개의 고품질 다양한 이미지-텍스트 프롬프트로 구성된 새로운 벤치마크입니다. 이 프롬프트에는 전문가가 작성한 정답 응답이 포함되어 있습니다. Vibe-Eval은 두 가지 목표를 가지고 있습니다:
이 벤치마크에는 169개의 일반 난이도 프롬프트와 100개의 고난이도 프롬프트가 포함되어 있습니다. 고난이도 프롬프트는 Reka Core가 현재 해결하지 못하는 프롬프트로 구성되어 있습니다.
프롬프트와 정답 응답은 팀원들이 직접 수집하고 여러 번 검토하여 최고 품질을 보장합니다. 대부분의 이미지는 직접 촬영한 사진이나 스크린샷으로, 벤치마크 공개 시점에서 테스트 세트 유출 가능성을 최소화했습니다.
공식 평가 프로토콜에서는 Reka Core를 자동 평가 모델로 사용합니다. Reka Core는 프롬프트, 모델 생성, 정답 응답을 입력받아 1-5점 척도로 응답의 정확성을 평가합니다. 이 자동 평가 결과는 사람의 평가 결과와 강하게 상관관계를 보입니다.
Vibe-Eval은 멀티모달 언어 모델의 성능을 측정하고 비교하는 데 유용한 벤치마크입니다. 이 벤치마크를 통해 모델의 강점과 약점을 파악하고 지속적인 발전을 도모할 수 있습니다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Piotr Padlew... um arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02287.pdfTiefere Fragen