GPT-4 als Grundlage für Zero-Shot-Bildklassifizierung: Evaluierung der linguistischen und visuellen Fähigkeiten
Die Studie evaluiert die linguistischen und visuellen Fähigkeiten von GPT-4 für Zero-Shot-Bildklassifizierung über 16 Benchmark-Datensätze mit Bildern, Videos und Punktwolken. Die Ergebnisse zeigen, dass GPT-4 durch seine umfangreichen Sprachkenntnisse die Zero-Shot-Erkennungsleistung deutlich verbessern kann und in vielen Fällen mit den Leistungen großer CLIP-Modelle konkurriert.