מושגי ליבה
Ein einstufiger Ansatz verbessert die Leistung der Bildbeschreibung und Lokalisierung von Objekten.
תקציר
Das Preprint untersucht die Schwach überwachte Bildbeschreibung und Lokalisierung von Objekten. Es vergleicht einstufige und zweistufige Ansätze, zeigt die Effektivität von Relationstoken und analysiert die Leistungen auf verschiedenen Datensätzen.
- Einleitung zur Bildbeschreibung in der Computer Vision.
- Probleme mit zweistufigen Ansätzen und Vorteile eines einstufigen Ansatzes.
- Vorstellung des vorgeschlagenen Modells mit Relationstoken.
- Experimente und Ergebnisse auf Flick30k Entities und MSCOCO Datensätzen.
- Vergleich mit bestehenden Methoden und Schlussfolgerungen.
סטטיסטיקה
"Die experimentellen Ergebnisse zeigen, dass unser Verfahren eine erstklassige Bodenleistungsperformance erreicht."
"Unser Modell erreicht eine FPS von 32,2 und benötigt 64,2 Gflops im Vergleich zu bestehenden Methoden."
"Die mAP für die Vorhersage von Multi-Label-Relationen beträgt 46,55%."
ציטוטים
"Wir beobachten, dass Relationstoken nicht nur die Bildbeschreibung verbessern, sondern auch die Lokalisierungsleistung steigern."
"Unser Modell zeigt eine signifikante Verbesserung in der Bodenleistung gegenüber bestehenden Methoden."