Conceitos essenciais
Lumen, ein großes multimodales Modell, entkoppelt das Lernen von aufgabenunabhängigen und aufgabenspezifischen Fähigkeiten, um die inhärenten bildorientierten Fähigkeiten von großen Sprachmodellen effizient zu nutzen.
Resumo
Der Artikel stellt Lumen, ein großes multimodales Modell, vor, das darauf abzielt, die bildorientierten Fähigkeiten von großen Sprachmodellen effizient zu nutzen. Lumen besteht aus zwei Stufen:
In der ersten Stufe konzentriert sich Lumen darauf, eine feinkörnige Abstimmung zwischen Bild und Sprache zu fördern, indem es die Ausgabe eines speziellen Tokens ([LOC]) mit Bildregionen abgleicht. Dieser Abgleich erfolgt unabhängig von der spezifischen Aufgabe, um eine gemeinsame Darstellung für verschiedene visuelle Aufgaben zu erhalten.
In der zweiten Stufe werden aufgabenspezifische Dekodierschritte durchgeführt, indem die Ausgabe der ersten Stufe als Indikator für leichtgewichtige aufgabenspezifische Decoder verwendet wird. Auf diese Weise kann Lumen nahtlos an Aufgaben wie Objekterkennung, Instanzsegmentierung und Posenschätzung angepasst werden, ohne spezialisierte Datensätze oder Dialogsysteme wie in früheren Arbeiten zu benötigen.
Die Experimente zeigen, dass Lumen die Leistung bestehender großer multimodaler Modelle in Objekterkennung deutlich übertrifft und auch bei anderen Aufgaben vergleichbare Ergebnisse wie spezialisierte Modelle erzielt. Darüber hinaus weist Lumen eine gute Übertragbarkeit auf ungesehene Datensätze und Aufgaben auf.
Estatísticas
"Die Aufgabenausgabe ist [DET]/[SEG]/[POINT]"
"Die Aufgabenausgabe ist [GROUND]/[REFSEG]"
Citações
"Lumen first promotes fine-grained vision-language concept alignment, which is the fundamental capability for various visual tasks."
"Benefiting from such a decoupled design, our Lumen surpasses existing LMM-based approaches on the COCO detection benchmark with a clear margin and exhibits seamless scalability to additional visual tasks."