Core Concepts
Chat-UniVi empowers large language models to comprehend and engage in conversations involving images and videos through a unified visual representation.
Abstract
Large language models have universal capabilities but struggle with image and video understanding.
Chat-UniVi uses dynamic visual tokens for spatial details in images and temporal relationships in videos.
Multi-scale representation enhances model capabilities for various tasks.
Trained on mixed datasets, Chat-UniVi outperforms methods designed exclusively for images or videos.
Stats
大規模言語モデルは、画像とビデオの理解に苦労している。
Chat-UniViは、画像の空間的詳細とビデオの時間的関係のために動的ビジュアルトークンを使用しています。
マルチスケール表現は、さまざまなタスクのためにモデルの機能を向上させます。
混合データセットで訓練されたChat-UniViは、画像またはビデオ専用の方法よりも優れたパフォーマンスを発揮します。