本研究は、ビデオ内に存在する視覚アクション、音声イベント、視聴覚イベントを同時に位置合わせできる統一的なフレームワークを提案する。
まず、視覚と音声の特徴を統一的にエンコードするパイラミッド型トランスフォーマーを導入する。これにより、データの多様性を吸収し、短時間から長時間のインスタンスを検出できる。
次に、タスク固有の専門家レイヤーを設計し、各タスクの固有の知識を学習できるようにする。これにより、タスク間の違いに対応できる。
さらに、事前学習済みの言語エンコーダを活用した統一的な言語対応分類器を提案する。これにより、プロンプトを変更するだけで、様々なタイプのインスタンスや未知のインスタンスを柔軟に検出できる。
実験の結果、提案手法は単一タスクモデルを大幅に上回る性能を達成し、3つのベンチマークでも最先端の結果を得ている。また、マルチタスク学習は単一タスクモデルの事前学習として有効であることも示された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문