The author presents UniVS, a unified video segmentation model that uses prompts as queries to address the challenges of different video segmentation tasks. By averaging prompt features and introducing a target-wise prompt cross-attention layer, UniVS achieves universal training and testing across various scenarios.
UniVSは、プロンプトをクエリとして使用することで、すべてのビデオセグメンテーションタスクを1つのモデルで処理する革新的な統合アーキテクチャを提案します。
UniVS präsentiert eine innovative vereinheitlichte Architektur für Video-Segmentierung, die verschiedene Aufgaben durch die Verwendung von Hinweisen als Abfragen bewältigt.