核心概念
Foundation models with rich knowledge can boost open-world video recognition through a generic knowledge transfer pipeline named PCA.
要約
研究では、オープンワールドビデオ認識のための基盤モデルによる豊富な知識を活用することで、PCAという名前の汎用的な知識転送パイプラインがオープンワールドビデオ認識を向上させることが示されています。この研究では、Percept、Chat、Adaptの3つの段階を経て外部マルチモーダル知識を統合し、ビデオ認識性能を向上させる方法が提案されています。
統計
TinyVIRAT datasetにおけるF1スコア:77.10%
ARID datasetにおけるTop-1 Acc:98.70%
QV-Pipe datasetにおけるmAP:65.17%
引用
"Models such as BLIP have already acquired the ability to jointly process visual and natural textual information."
"Extensive experiments show that our method achieves state-of-the-art performance on all these open-world video datasets."