Ein neuro-symbolischer Ansatz, der semantisches Verständnis einzelner Frames mit temporaler Logik-Analyse kombiniert, um präzise Szenen in langen Videosequenzen zu identifizieren.
Ein neuro-symbolischer Ansatz, der semantisches Verständnis von Einzelbildern mit temporaler Logik-Reasoning kombiniert, um präzise Szenen in langen Videos zu identifizieren.
VisionGPT-3D ist ein integrierter Rahmenwerk, das modernste Bildverarbeitungsmodelle nahtlos kombiniert, um die Entwicklung von auf Vision ausgerichteter KI zu erleichtern. Es ermöglicht die automatische Auswahl geeigneter Modelle, die Identifizierung passender 3D-Mesh-Erstellungsalgorithmen und die Generierung optimaler Ergebnisse basierend auf vielfältigen multimodalen Eingaben wie Textbefehlen.
Skizzen bieten eine einzigartige Modalität für Erklärbarkeit, da jeder Strich subjektive Bedeutung für den Zeichner hat. Unsere Lösung zur Skizzen-Erklärbarkeit ermöglicht es, die Auswirkungen von Erklärbarkeit auf verschiedene skizzenbezogene Aufgaben zu verstehen und zu nutzen.
Durch die Kombination von menschlicher und maschineller Wahrnehmung wird die Interpretierbarkeit eines Gesichtsverifikationsalgorithmus erhöht, um die Entscheidungsfindung transparenter und verständlicher für Menschen zu gestalten.
Der Diskriminator eines vortrainierten StyleGAN3-Modells zeigt eine systematische Benachteiligung von Gesichtern mit dunkler Hautfarbe, insbesondere von schwarzen Männern. Darüber hinaus werden Männer mit langen Haaren durchgängig schlechter bewertet als Männer mit kurzen Haaren.
Die Studie evaluiert die linguistischen und visuellen Fähigkeiten von GPT-4 für Zero-Shot-Bildklassifizierung über 16 Benchmark-Datensätze mit Bildern, Videos und Punktwolken. Die Ergebnisse zeigen, dass GPT-4 durch seine umfangreichen Sprachkenntnisse die Zero-Shot-Erkennungsleistung deutlich verbessern kann und in vielen Fällen mit den Leistungen großer CLIP-Modelle konkurriert.