Dieser Artikel stellt einen neuartigen Ansatz für die offene Vokabular-Objekterkennung in Luftbildern vor, der als CastDet bezeichnet wird. Der Kernaspekt ist ein Student-Lehrer-Lernrahmen, der zwei Lehrermodelle verwendet - einen Lokalisierungslehrer und einen externen Lehrer (RemoteCLIP), um die Qualität der Objektvorschläge und Pseudobeschriftungen für neuartige Kategorien zu verbessern.
Der Lokalisierungslehrer ist ein exponentiell gleitender Durchschnitt des Studentenmodells, der stabile und robuste Objektvorschläge generiert. Der externe RemoteCLIP-Lehrer, der auf großen Fernerkundungsbilddatensätzen vortrainiert ist, dient als zusätzlicher Lehrer, um die Klassifizierung neuartiger Objekte zu verbessern. Darüber hinaus verwenden wir eine dynamische Pseudobeschriftungswarteschlange, um die Qualität der Pseudobeschriftungen während des Trainings aufrechtzuerhalten.
Die Experimente auf mehreren Luftbilddatensätzen zeigen, dass unser Ansatz die Leistung bei der offenen Vokabular-Objekterkennung deutlich verbessert und die Erkennungsgenauigkeit für neuartige Kategorien erhöht, ohne zusätzliche Annotationen zu erfordern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yan Li,Weiwe... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.11646.pdfDomande più approfondite