Der Beitrag präsentiert einen neuartigen einheitlichen Mehrgranularitätsausrichtungs (MGA)-Rahmen für domänenadaptive Objekterkennung. Im Gegensatz zu früheren Ansätzen, die Ausrichtungen auf einer bestimmten Granularitätsebene durchführen, integriert MGA die Abhängigkeiten über verschiedene Granularitätsebenen hinweg, einschließlich Pixel-, Instanz- und Kategorieebene, für eine domäneninvariante Merkmalsrepräsentation.
Konkret führt MGA zunächst eine omni-skalige gated fusion (OSGF)-Modul ein, um diskriminative Darstellungen von Instanzen mit unterschiedlichen Skalen und Seitenverhältnissen zu extrahieren. Darüber hinaus präsentiert MGA einen neuen kategorie-basierten Diskriminator, der nicht nur die Instanz-Diskriminierbarkeit in verschiedenen Klassen, sondern auch die Kategorie-Konsistenz zwischen den beiden Domänen berücksichtigt, was zu einer besseren Erkennung führt.
Darüber hinaus schlägt MGA eine adaptive exponentielle gleitende Mittelwertbildung (AEMA) vor, um die Qualität der Pseudo-Labels zu verbessern und gleichzeitig das Problem der lokalen Fehlausrichtung zu mildern, was die Robustheit des Detektors weiter erhöht.
Umfangreiche Experimente auf mehreren Domänenadaptionsszenarien zeigen, dass der vorgeschlagene MGA-Rahmen zusammen mit der dynamischen Modellaktualisierung die Baseline-Detektoren deutlich übertrifft und bessere Ergebnisse als andere State-of-the-Art-Ansätze erzielt.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania