Das Forschungsprojekt stellt ein Framework vor, das die Geschwindigkeit der lokal ausgeführten Open-World-Objekterkennung mit der Intelligenz von LLMs kombiniert, um ein universelles Anomalieerkennung ssystem zu schaffen. Das Hauptziel dieses Systems ist es, blinden und sehbehinderten Nutzern in Echtzeit personalisierte Szenenbe schreibungen und Sicherheitsbenachrichtigungen zu liefern, um ihre Sicherheit und Mobilität zu erhöhen.
Das System arbeitet kontinuierlich, wobei das Objekterkennungsmodul Echtzeit-Kamerabilder verarbeitet. Die Informationen zu den erkannten Objekten werden dann in speziell entwickelte Eingabeaufforderungen aufgenommen und an das LLM-Modul übermittelt. Das System verarbeitet dann die Antwort des LLM, klassifiziert potenzielle Anomalien und übermittelt dem Nutzer wichtige Warnungen und wesentliche Szenenbe schreibungen.
Das Objekterkennungsmodul verwendet das leistungsstarke YOLO-World-Modell für die offene Vokabular-Erkennung, dessen Erkennungsklassen für eine Vielzahl von Szenarien anpassbar sind. Das Anomalieerkennung smodul kategorisiert die erkannten Objekte basierend auf ihrer Position im Bild in vier Bereiche (links, rechts, vorne, Boden) und identifiziert potenzielle Gefahren oder Hindernisse. Das LLM-Modul verarbeitet dann die Objektinformationen und generiert personalisierte Warnungen und Beschreibungen für den Nutzer.
Das System wurde auf mehreren Plattformen getestet und erreicht eine durchschnittliche End-to-End-Latenz von 60 ms auf mobilen Geräten, was eine zeitnahe Rückmeldung ermöglicht. Darüber hinger wurde die Wirtschaftlichkeit des Systems untersucht, wobei verschiedene Betriebsmodi mit unterschiedlichen Latenz- und Kostenprofilen angeboten werden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hao Wang,Jia... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12415.pdfDeeper Inquiries