PSALM ist eine Erweiterung des Large Multi-Modal-Modells (LMM), um Segmentierungsaufgaben zu adressieren. Es überwindet die Beschränkung des LMM auf Textausgaben, indem es einen Masken-Dekoder und ein gut konzipiertes Eingabeschema integriert. Dieses Schema umfasst Bilder, Aufgabenanweisungen, bedingte Eingabeaufforderungen und Masken-Token, die es dem Modell ermöglichen, Segmentierungsmasken effektiv zu generieren und zu klassifizieren.
Das flexible Design von PSALM unterstützt das gemeinsame Training über mehrere Datensätze und Aufgaben hinweg, was zu verbesserter Leistung und Aufgabengeneralisierung führt. PSALM erzielt überlegene Ergebnisse auf mehreren Benchmarks wie RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation und COCO-Interactive. Darüber hinaus zeigt es Zero-Shot-Fähigkeiten bei ungesehenen Aufgaben wie offener Vokabular-Segmentierung, verallgemeinerter Referring-Expression-Segmentierung und Videoobjeltsegmentierung, was einen wichtigen Schritt in Richtung eines GPT-Moments im Bereich der Computervision darstellt.
Durch umfangreiche Experimente auf einer Vielzahl von Segmentierungsaufgaben zeigt PSALM sein großes Potenzial, allgemeine Bildsegmentierungsaufgaben anzugehen und einen gewissen Grad an Aufgabengeneralisierung zu zeigen, wie es LLMs im Bereich der Verarbeitung natürlicher Sprache tun.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Zheng Zhang,... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14598.pdfPerguntas Mais Profundas