T-Rex2 ist ein Modell für die offene Objekterkennung, das textbasierte und visuelle Eingabeaufforderungen (Prompts) integriert, um die jeweiligen Stärken dieser beiden Modalitäten zu nutzen.
Das Modell besteht aus vier Hauptkomponenten: einem Bildencoder, einem visuellen Prompt-Encoder, einem Text-Prompt-Encoder und einem Box-Decoder. Der visuelle Prompt-Encoder kann Boxen oder Punkte in einem Bild oder über mehrere Bilder hinweg verarbeiten, um visuelle Beispiele für Objekte zu erfassen. Der Text-Prompt-Encoder nutzt den CLIP-Textencoder, um textbasierte Beschreibungen von Objekten zu verarbeiten.
Um die beiden Modalitäten zu integrieren, verwendet T-Rex2 ein kontrastives Lernverfahren, das die Text- und Visuelle-Prompt-Repräsentationen aufeinander ausrichtet. Dadurch können die Stärken beider Modalitäten genutzt werden - die Abstraktionsfähigkeit von Textprompts und die Detailgenauigkeit von visuellen Prompts.
T-Rex2 bietet vier verschiedene Arbeitsabläufe an, die für unterschiedliche Anwendungsszenarien geeignet sind: interaktiver visueller Prompt, generischer visueller Prompt, Textprompt und eine Mischung aus beidem.
Die Experimente zeigen, dass T-Rex2 bemerkenswerte Fähigkeiten zur offenen Objekterkennung in verschiedenen Benchmarks wie COCO, LVIS, ODinW und Roboflow100 aufweist. Textprompts sind besonders gut bei der Erkennung häufiger Objekte, während visuelle Prompts bei seltenen Objekten oder schwer zu beschreibenden Szenarien überlegen sind. Die Kombination der beiden Modalitäten ermöglicht eine effektive Objekterkennung über ein breites Spektrum an Szenarien hinweg.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Qing Jiang,F... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14610.pdfاستفسارات أعمق