本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ruyang Liu, ... alle arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.02327.pdfDomande più approfondite