Alapfogalmak
長尺動画を処理するためのテキスト条件付きリサンプラーモジュールの効果的な設計とトレーニング方法に焦点を当てる。
Statisztikák
TCRは100フレーム以上のビデオシーケンスを処理できる。
ビジュアルエンコーダーとLLMは凍結されたままである。
Idézetek
"TCR resamples visual features that are relevant for the downstream tasks before passing them to the LLM."
"This new method allows us to analyze aspects of video datasets we’ve never been able to before."