本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ruyang Liu, ... kl. arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.02327.pdfDybere Forespørgsler