본 연구는 기존 비디오 LLM의 한계를 극복하기 위해 새로운 접근법을 제안한다. 기존 비디오 LLM은 수백만 개의 짧은 비디오 클립으로 학습되었지만, 수분 길이의 장기 비디오를 이해하고 질문에 답변하는 데 어려움이 있다.
이를 해결하기 위해 Koala 모델은 다음과 같은 핵심 구성요소를 도입한다:
이를 통해 Koala 모델은 기존 비디오 LLM 대비 장기 비디오 이해 및 질문 답변 성능이 3-6% 향상되었다. 또한 단기 동작 인식 성능도 향상되어, 제안 방법이 비디오 이해 전반에 걸쳐 효과적임을 보여준다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Reuben Tan,X... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04346.pdfاستفسارات أعمق