本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Ruyang Liu, ... : arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.02327.pdfDaha Derin Sorular