本論文では、MiniGPT4-Videoというマルチモーダルな大規模言語モデルを提案している。このモデルは、ビデオの時間的な視覚的および言語的データを処理する能力を備えており、ビデオの複雑さを理解することができる。
MiniGPT-v2をベースとしており、単一の画像から視覚的特徴をLLM空間に変換する能力を持っている。本論文ではこの機能をビデオの連続フレームにも拡張している。各フレームの視覚トークンと字幕テキストトークンを連結することで、ビデオの視覚的および言語的な情報を効果的に活用できるようになっている。
提案手法は、MSVD、MSRVTT、TGIF、TVQAなどの各種ベンチマークにおいて、既存の最先端手法を4.22%、1.13%、20.82%、13.1%と大幅に上回る性能を示している。
To Another Language
from source content
arxiv.org
Głębsze pytania