Core Concepts
WorldQA 데이터셋은 비디오 이해를 위해 다양한 정보와 세계 지식을 활용하는 복잡한 추론 능력을 평가하는 것을 목표로 한다.
Abstract
WorldQA 데이터셋은 비디오 이해를 위해 다양한 정보와 세계 지식을 활용하는 복잡한 추론 능력을 평가하는 것을 목표로 한다. 이를 위해 1007개의 질문-답변 쌍과 303개의 비디오로 구성되어 있으며, 5가지 유형의 세계 지식을 활용한다. 평균 4.45단계의 추론 과정이 필요한 것으로 나타났다. 이는 기존 비디오 QA 데이터셋의 2단계 미만에 비해 매우 높은 수준이다.
WorldRetriever는 이러한 복잡한 추론 과정을 수행하기 위해 지각 및 인지 관련 전문 모델을 활용하여 질문에 대한 답변을 생성한다. 13개의 대형 언어 모델과 대형 멀티모달 모델을 평가한 결과, WorldRetriever가 가장 효과적이지만 인간 수준의 70%만 달성했다. 이는 모델의 추론 및 이해 능력 향상이 필요함을 시사한다. 또한 인간은 더 많은 프레임을 활용할수록 성능이 향상되지만, 현재 모델은 그렇지 않다는 점도 발견되었다.
Stats
사람들은 일반적으로 직장에 가기 위해 출퇴근한다.
프린터가 작동하지 않으면 사람들은 좌절감을 느낄 수 있다.
사람들은 프린터를 수리하기 위해 때로는 그것을 때리거나 발로 차기도 한다.
안전 상자 안에 갇힌 사람은 탈출할 수 있는 방법을 찾아야 한다.
토스터기가 작동하지 않으면 사람들은 다른 방법으로 빵을 구우려 시도할 수 있다.
Quotes
"사람들은 일반적으로 직장에 가기 위해 출퇴근한다."
"프린터가 작동하지 않으면 사람들은 좌절감을 느낄 수 있다."
"사람들은 프린터를 수리하기 위해 때로는 그것을 때리거나 발로 차기도 한다."
"안전 상자 안에 갇힌 사람은 탈출할 수 있는 방법을 찾아야 한다."
"토스터기가 작동하지 않으면 사람들은 다른 방법으로 빵을 구우려 시도할 수 있다."