Główne pojęcia
멀티모달 대형 언어 모델의 성능을 평가하기 위해 개별 기준을 사용하여 강력한 멀티모달 모델인 GPT-4V를 평가자로 활용하는 새로운 평가 패러다임을 제안한다.
Streszczenie
이 논문은 멀티모달 대형 언어 모델(MLLM)의 성능을 평가하기 위한 새로운 패러다임을 제안한다. 기존의 평가 방식은 명확한 정답이 있는 폐쇄형 질문에 초점을 맞추었지만, 창의성, 연관성, 윤리적 판단과 같은 영역은 단순한 정답/오답으로 평가하기 어렵다.
이 논문에서는 강력한 MLLM인 GPT-4V를 평가자로 활용하고, 각 질문에 대한 개별 평가 기준을 제공하는 새로운 평가 방식을 제안한다. 이를 통해 개방형 질문에 대한 다양한 유효한 응답을 평가할 수 있다.
또한 이 논문은 MLLM-Bench라는 벤치마크 데이터셋을 개발했다. 이 데이터셋은 수정된 Bloom의 분류법에 따라 6가지 인지 수준에 걸쳐 42개의 MLLM 기능을 포함하며, 각 기능에 대해 10개의 세부 시나리오를 제공한다. 이를 통해 실제 사용자 경험에 더 부합하는 MLLM 평가를 수행할 수 있다.
실험 결과, 제안한 평가 방식은 인간 평가와 88.02%의 높은 일치율을 보였다. 또한 다른 평가 방식과 비교했을 때 개별 기준을 활용하는 것이 더 효과적임을 확인했다. 마지막으로 다른 강력한 MLLM인 Claude-3-Opus를 평가자로 사용해도 유사한 결과를 얻을 수 있음을 보였다.
Statystyki
여성의 키는 약 165cm에서 175cm 사이일 것으로 추정된다.
야오밍의 키는 229cm이고, 샤킬 오닐의 키는 216cm이다.
Cytaty
"멀티모달 대형 언어 모델(MLLMs)의 성능 평가는 상당한 도전과제이다. 이는 본질적으로 주관적인 성격의 과제로 명확한 해답이 없기 때문이다."
"기존의 자동 평가 방식은 주로 객관적인 질문을 평가하는데 초점을 맞추고 있어, 실제 사용자 경험을 고려하지 못하고 창의적이고 연관적인 멀티모달 과제의 미묘한 부분을 다루지 못한다."