본 연구는 기존 비디오 LLM의 한계를 극복하기 위해 새로운 접근법을 제안한다. 기존 비디오 LLM은 수백만 개의 짧은 비디오 클립으로 학습되었지만, 수분 길이의 장기 비디오를 이해하고 질문에 답변하는 데 어려움이 있다.
이를 해결하기 위해 Koala 모델은 다음과 같은 핵심 구성요소를 도입한다:
이를 통해 Koala 모델은 기존 비디오 LLM 대비 장기 비디오 이해 및 질문 답변 성능이 3-6% 향상되었다. 또한 단기 동작 인식 성능도 향상되어, 제안 방법이 비디오 이해 전반에 걸쳐 효과적임을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Reuben Tan,X... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04346.pdfYêu cầu sâu hơn