Konsep Inti
Erkundung des Potenzials von nullschuss-fähigen Large Multimodal Models (LMMs) wie YOLO-World und GPT-4V für Personenerkennung und Aktivitätserkennung in Drohnenbildern, um die Zuverlässigkeit von Drohnen in unvorhersehbaren Szenarien zu verbessern.
Abstrak
In dieser Studie untersuchen die Autoren die Anwendbarkeit von zwei nullschuss-fähigen Large Multimodal Models (LMMs) - YOLO-World und GPT-4V - für Personenerkennung und Aktivitätserkennung in Drohnenbildern.
Zunächst evaluieren sie die Leistung von YOLO-World bei der Personenerkennung auf dem öffentlich verfügbaren Okutama-Action-Datensatz. YOLO-World zeigt eine gute Erkennungsleistung, auch wenn die Genauigkeit nicht mit traditionellen Ansätzen mithalten kann. Der Vorteil liegt jedoch in der Möglichkeit, das Modell durch Änderung eines einzigen Schlüsselworts in der Eingabeaufforderung für völlig andere Anwendungsfälle einzusetzen.
Anschließend untersuchen die Autoren, ob GPT-4V die erkannten Personen ihren Aktivitäten zuordnen kann. Hier zeigt sich, dass GPT-4V zwar ein grundlegendes Verständnis der Szene hat, aber Schwierigkeiten hat, die Aktivitäten der Personen genau zu klassifizieren. Allerdings kann GPT-4V möglicherweise verwendet werden, um unerwünschte Regionsvorschläge zu filtern oder eine allgemeine Beschreibung der Szenerie zu liefern.
Insgesamt stellt diese Forschungsarbeit einen ersten Schritt dar, um LMMs für die Drohnenwahrnehmung zu nutzen und legt den Grundstein für zukünftige Untersuchungen in diesem Bereich.
Statistik
In der Tabelle I werden die Präzision, der Recall und der F1-Score der YOLO-World-Personenerkennung für die einzelnen Flüge des Okutama-Action-Datensatzes angegeben.
In Tabelle II sind die Ergebnisse der vier GPT-4V-Experimente zur Erkennung von Personen/Nicht-Personen und zur Erkennung von 13 Aktivitätsklassen dargestellt. Dabei werden die Genauigkeit (0/1) und der F1-Score für die jeweiligen Erkennungsaufgaben angegeben.
Kutipan
Keine relevanten wörtlichen Zitate identifiziert.