Der Artikel stellt eine neue einheitliche Architektur für die Bildsegmentierung vor, den Mixed-Query Transformer (MQ-Former). Im Gegensatz zu bestehenden Ansätzen, die entweder auf mehrere Aufgaben aber unterschiedliche Gewichte für verschiedene Datensätze trainiert werden oder auf mehrere Datensätze aber unterschiedliche Gewichte für jede Aufgabe, kann MQ-Former mit einem einzigen Satz von Gewichten verschiedene Segmentierungsaufgaben und -datensätze effektiv handhaben.
Der Schlüssel dafür ist eine neuartige gemischte Abfragestrategie (mixed query), die lernbare und bedingte Abfragen kombiniert. Diese ermöglichen es dem Modell, dynamisch verschiedene Arten von Objekten (Dinge und Stoffe) zu berücksichtigen, ohne auf heuristische Designs angewiesen zu sein. Im Gegensatz zu früheren Ansätzen, die eine Unterscheidung zwischen Dingen und Stoffen erfordern, entfällt diese Einschränkung bei MQ-Former.
Darüber hinaus nutzt das einheitliche MQ-Former-Modell synthetische Daten, um die Generalisierungsfähigkeit weiter zu verbessern. Synthetische Segmentierungsmasken und Bildunterschriften werden verwendet, um die Vielfalt und Größe des Trainingsdatensatzes zu erhöhen.
Experimente zeigen, dass MQ-Former nicht nur effektiv mit mehreren Segmentierungsdatensätzen und -aufgaben umgehen kann, sondern auch eine bessere Generalisierung auf offene Segmentierungsaufgaben aufweist, mit über 7 Punkten Verbesserung gegenüber dem Stand der Technik auf dem SeginW-Benchmark.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문