研究では、オープンワールドビデオ認識のための基盤モデルによる豊富な知識を活用することで、PCAという名前の汎用的な知識転送パイプラインがオープンワールドビデオ認識を向上させることが示されています。この研究では、Percept、Chat、Adaptの3つの段階を経て外部マルチモーダル知識を統合し、ビデオ認識性能を向上させる方法が提案されています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Boyu Chen,Si... lúc arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.18951.pdfYêu cầu sâu hơn