本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ruyang Liu, ... lúc arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.02327.pdfYêu cầu sâu hơn