Dieser Artikel stellt einen neuartigen Ansatz für die offene Vokabular-Objekterkennung in Luftbildern vor, der als CastDet bezeichnet wird. Der Kernaspekt ist ein Student-Lehrer-Lernrahmen, der zwei Lehrermodelle verwendet - einen Lokalisierungslehrer und einen externen Lehrer (RemoteCLIP), um die Qualität der Objektvorschläge und Pseudobeschriftungen für neuartige Kategorien zu verbessern.
Der Lokalisierungslehrer ist ein exponentiell gleitender Durchschnitt des Studentenmodells, der stabile und robuste Objektvorschläge generiert. Der externe RemoteCLIP-Lehrer, der auf großen Fernerkundungsbilddatensätzen vortrainiert ist, dient als zusätzlicher Lehrer, um die Klassifizierung neuartiger Objekte zu verbessern. Darüber hinaus verwenden wir eine dynamische Pseudobeschriftungswarteschlange, um die Qualität der Pseudobeschriftungen während des Trainings aufrechtzuerhalten.
Die Experimente auf mehreren Luftbilddatensätzen zeigen, dass unser Ansatz die Leistung bei der offenen Vokabular-Objekterkennung deutlich verbessert und die Erkennungsgenauigkeit für neuartige Kategorien erhöht, ohne zusätzliche Annotationen zu erfordern.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問