本論文では、Tarsierと呼ばれる大規模ビデオ言語モデルを提案している。Tarsierは、CLIP-ViTを使ってフレームを個別にエンコードし、LLMを使って時間的関係をモデル化する単純なアーキテクチャを持つ。しかし、大規模な多タスク事前学習と詳細な動画説明データを使った微調整によって、既存の動画説明モデルを大きく上回る性能を達成している。
具体的には、以下の点が明らかになった:
Tarsierは、人間評価でも自動評価でも、既存の動画説明モデルを大きく上回る。特に、Tarsier-34Bは、最先端の独占モデルであるGPT-4VやGemini 1.5 Proと肩を並べる性能を示した。
Tarsierは、動画QAや動画キャプショニングなどの他のビデオ理解タスクでも、新しい最高記録を達成した。これは、Tarsierが汎用的な能力を持つことを示している。
事前学習データの規模と多様性、詳細な動画説明データを使った微調整の重要性などが、Tarsierの高性能の要因であることが明らかになった。
全体として、Tarsierは、単純なアーキテクチャながら、大規模な学習と高品質なデータを活用することで、動画理解の新しい水準を示した重要な成果である。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы