Core Concepts
In dieser Studie untersuchen wir die Anpassung prominenter Grundlagenmodelle für die Aufgabe der Wenig-Schuss-Semantischen Segmentierung und führen einen umfassenden Vergleich durch, der zeigt, dass das DINO V2-Modell anderen Modellen deutlich überlegen ist.
Abstract
Die Studie untersucht die Anpassung von vier prominenten Grundlagenmodellen (DINO V2, Segment Anything, CLIP, Masked AutoEncoder) sowie eines einfachen ResNet50-Modells für die Aufgabe der Wenig-Schuss-Semantischen Segmentierung. Dafür wird ein neuartiger Benchmark auf Basis von drei bekannten semantischen Segmentierungsdatensätzen (Cityscapes, COCO, PPD) entwickelt.
Die Ergebnisse zeigen, dass das DINO V2-Modell über verschiedene Datensätze und Anpassungsmethoden hinweg deutlich bessere Leistungen erbringt als die anderen Modelle. Dabei liefern die verschiedenen Anpassungsmethoden (von linearer Probing bis Finetuning) nur geringe Leistungsunterschiede, was darauf hindeutet, dass eine einfache lineare Probing-Methode mit fortschrittlicheren und rechenintensiveren Alternativen konkurrieren kann.
Darüber hinaus untersucht die Studie den Einfluss verschiedener Faktoren wie Modellgröße, Architektur, Trainingsdatensatz und Trainingsmethode auf die Leistung der Modelle. Dabei zeigt sich, dass DINO V2 insbesondere von einem größeren Trainingsdatensatz profitiert.
Stats
DINO V2 übertrifft andere Modelle deutlich bei der durchschnittlichen mittleren Intersection-over-Union (mIoU) über die drei Datensätze hinweg.
Eine einfache lineare Probing-Methode kann mit fortschrittlicheren Anpassungsmethoden wie Finetuning konkurrieren.
Eine größere Trainingsdatenmenge verbessert die Leistung von DINO V2 signifikant, insbesondere auf dem COCO-Datensatz.
Quotes
"DINO V2 consistently outperforms all other models across various settings."
"Fine-tuning methods yield comparable results."
"DINO V2 scales better than other models with more shots."