핵심 개념
현재의 MLLM은 오프라인 비디오 이해 능력이 뛰어나지만, 실시간 스트리밍 비디오 이해 능력 평가를 위한 포괄적인 벤치마크가 부족하며, 실제 환경에서 인간 수준의 비디오 이해 및 상호 작용을 달성하기 위해서는 아직 개선의 여지가 많이 남아있다.
초록
StreamingBench: 스트리밍 비디오 이해를 위한 MLLM 평가를 위한 포괄적인 벤치마크
본 논문은 최첨단 MLLM의 스트리밍 비디오 이해 능력을 평가하기 위해 특별히 설계된 최초의 포괄적인 벤치마크인 StreamingBench를 소개합니다.
연구 목적
본 연구는 기존 오프라인 비디오 벤치마크의 한계점을 지적하고, 실시간 스트리밍 비디오 이해 능력을 평가할 수 있는 새로운 벤치마크의 필요성을 제시합니다. 이를 위해 StreamingBench를 개발하고, 다양한 MLLM을 사용하여 실험적으로 평가합니다.
방법론
StreamingBench는 900개의 비디오와 4,500개의 질문 쌍으로 구성되며, 18개의 작업을 세 가지 주요 범주로 분류합니다.
- 실시간 시각적 이해: 스트리밍 비디오의 시각적 내용을 실시간으로 이해하고 해석하는 모델의 능력을 평가합니다. (객체 인식, 인과 추론, 클립 요약, 속성 인식, 이벤트 이해, 텍스트 풍부 이해, 예측 추론, 공간 이해, 행동 인식, 계산)
- 다중 소스 이해: 실시간 비디오 스트림에서 시각 및 오디오 정보를 동시에 처리하고 통합하는 모델의 능력을 평가합니다. (감정 인식, 장면 이해, 소스 구별, 다중 모드 정렬)
- 맥락적 이해: 연속적인 비디오 스트림 내에서 복잡한 맥락을 이해하고 이전 질문-답변 쌍 또는 후기 사전 예방적 출력을 위한 조건과 같은 스트리밍 상호 작용을 고려하여 정확한 응답을 제공하는 모델의 능력을 평가합니다. (오해의 소지가 있는 맥락 이해, 변칙 맥락 이해, 순차적 질문 답변, 사전 예방적 출력)
주요 결과
13개의 오픈 소스 및 독점 MLLM을 사용한 실험 결과, 가장 우수한 성능을 보인 Gemini 1.5 Pro조차 평균 정확도가 67.07%에 불과하여 인간 수준(91.66%)에 크게 못 미치는 것으로 나타났습니다.
주요 결론
- 현재 MLLM은 오프라인 비디오 이해에서 뛰어난 성능을 보이지만, 실시간 스트리밍 비디오 이해에서는 인간 수준에 도달하기 위해 아직 해결해야 할 과제가 많이 남아 있습니다.
- 특히, 실시간 처리, 다중 소스 정보 통합, 맥락적 이해, 스트리밍 상호 작용, 사전 예방적 출력 등의 능력을 향상하는 것이 중요합니다.
연구의 중요성
본 연구는 스트리밍 비디오 이해를 위한 MLLM의 현재 성능을 종합적으로 평가하고, 실제 환경에서 인간 수준의 비디오 이해 및 상호 작용을 달성하기 위한 미래 연구 방향을 제시합니다.
한계점 및 향후 연구 방향
- StreamingBench는 현재 MLLM이 실시간 스트리밍 입력을 처리할 수 없기 때문에 스트리밍 작업을 오프라인 작업으로 변환하여 평가합니다. 향후 실시간 스트리밍 입력을 직접 처리할 수 있는 MLLM에 대한 평가가 필요합니다.
- 본 연구에서는 제한된 수의 MLLM을 평가했습니다. 향후 더 많은 MLLM을 포함하여 평가를 확장할 필요가 있습니다.
통계
StreamingBench는 8가지 다양한 비디오 범주(일상 기록, 경쟁, 교육, TV 프로그램, 비디오 게임, 다큐멘터리, 애니메이션 및 영화, 특이 사건)에서 900개의 YouTube 비디오로 구성됩니다.
각 비디오에는 실제 스트리밍 비디오 시나리오와의 관련성을 보장하기 위해 수동으로 선별되고 신중하게 큐레이션된 5개의 질문이 포함되어 있습니다.
StreamingBench는 총 4,500개의 질문으로 구성되며, 실시간 시각적 이해 범주에는 2,500개, 다중 소스 이해 범주에는 1,000개, 맥락적 이해 범주에는 800개의 질문이 포함됩니다.
가장 우수한 성능을 보인 MLLM인 Gemini 1.5 Pro는 67.07%의 평균 정확도를 달성했습니다.
인간 평가자는 18개 작업에서 평균 91.66%의 점수를 기록했습니다.
인용구
"The rapid development of Multimodal Large Language Models (MLLMs) has expanded their capabilities from image comprehension to video understanding."
"However, most of these MLLMs focus primarily on offline video comprehension, necessitating extensive processing of all video frames before any queries can be made."
"This presents a significant gap compared to the human ability to watch, listen, think, and respond to streaming inputs in real time, highlighting the limitations of current MLLMs."
"To address the limitations of existing video benchmarks, we introduce StreamingBench, the first comprehensive benchmark for assessing the streaming video understanding capabilities of MLLMs."