本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ruyang Liu, ... om arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.02327.pdfDiepere vragen