長編動画の理解における効率性と有効性を向上させるために、動的なフレームサンプリングとフィードバック駆動型推論を用いた、大規模言語モデル(LLM)に基づくエージェントベースのアプローチが提案されている。
PLLaVAは、動画の内容(動作、服装など)を密集して記述するキャプションを生成する。