이 논문은 MiniGPT4-Video라는 비디오 이해 전용 멀티모달 LLM 모델을 소개한다. 이 모델은 비디오의 시간적 시각 데이터와 텍스트 데이터를 모두 처리할 수 있어 비디오의 복잡성을 이해할 수 있다.
MiniGPT-v2를 기반으로 하여, 이 모델은 단일 이미지에서 시각 특징을 LLM 공간으로 변환하는 능력을 확장하여 비디오 시퀀스를 처리할 수 있게 되었다. 또한 텍스트 대화도 함께 고려하여 시각과 텍스트 요소를 모두 포함하는 질문에 효과적으로 답변할 수 있다.
제안된 모델은 기존 최신 방법들보다 MSVD, MSRVTT, TGIF, TVQA 벤치마크에서 각각 4.22%, 1.13%, 20.82%, 13.1%의 성능 향상을 보였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kirolos Ataa... في arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03413.pdfاستفسارات أعمق