Das Forschungsprojekt stellt ein Framework vor, das die Geschwindigkeit der lokal ausgeführten Open-World-Objekterkennung mit der Intelligenz von LLMs kombiniert, um ein universelles Anomalieerkennung ssystem zu schaffen. Das Hauptziel dieses Systems ist es, blinden und sehbehinderten Nutzern in Echtzeit personalisierte Szenenbe schreibungen und Sicherheitsbenachrichtigungen zu liefern, um ihre Sicherheit und Mobilität zu erhöhen.
Das System arbeitet kontinuierlich, wobei das Objekterkennungsmodul Echtzeit-Kamerabilder verarbeitet. Die Informationen zu den erkannten Objekten werden dann in speziell entwickelte Eingabeaufforderungen aufgenommen und an das LLM-Modul übermittelt. Das System verarbeitet dann die Antwort des LLM, klassifiziert potenzielle Anomalien und übermittelt dem Nutzer wichtige Warnungen und wesentliche Szenenbe schreibungen.
Das Objekterkennungsmodul verwendet das leistungsstarke YOLO-World-Modell für die offene Vokabular-Erkennung, dessen Erkennungsklassen für eine Vielzahl von Szenarien anpassbar sind. Das Anomalieerkennung smodul kategorisiert die erkannten Objekte basierend auf ihrer Position im Bild in vier Bereiche (links, rechts, vorne, Boden) und identifiziert potenzielle Gefahren oder Hindernisse. Das LLM-Modul verarbeitet dann die Objektinformationen und generiert personalisierte Warnungen und Beschreibungen für den Nutzer.
Das System wurde auf mehreren Plattformen getestet und erreicht eine durchschnittliche End-to-End-Latenz von 60 ms auf mobilen Geräten, was eine zeitnahe Rückmeldung ermöglicht. Darüber hinger wurde die Wirtschaftlichkeit des Systems untersucht, wobei verschiedene Betriebsmodi mit unterschiedlichen Latenz- und Kostenprofilen angeboten werden.
翻譯成其他語言
從原文內容
arxiv.org
深入探究