Der Artikel stellt LaSagnA, einen sprachbasierten Segmentierungsassistenten für komplexe Abfragen, vor. LaSagnA überwindet die Einschränkungen bestehender vLLM-basierter Segmentierungsassistenten, die nur eine einzelne Zielkategorie pro Abfrage unterstützen und die Abwesenheit von Objekten in einem Bild nicht erkennen können.
Um diese Probleme zu lösen, führt LaSagnA ein neues Sequenzformat ein, das mehrere Zielkategorien sowie nicht vorhandene Kategorien in der Abfrage berücksichtigt. Durch die Integration der semantischen Segmentierungsaufgabe in den Trainingsprozess kann LaSagnA effektiv mit komplexen Abfragen umgehen.
Darüber hinaus präsentiert der Artikel drei innovative Strategien, um die Herausforderungen bei der Verwendung des neuen Sequenzformats zu bewältigen: Sequenzaugmentierung, zufällige Klassenliste und Beibehaltung der Kategoriereihenfolge. Diese Techniken ermöglichen es LaSagnA, die Leistung auf semantischen Segmentierungsdatensätzen deutlich zu verbessern.
Umfangreiche Experimente zeigen, dass LaSagnA die Leistung von modernen Spezialisten auf geschlossenen und offenen semantischen Segmentierungsaufgaben annähern kann. Darüber hinaus übertrifft LaSagnA eine Reihe von vLLMs in Bezug auf Reasoning- und Referring-Segmentierung, was seine bemerkenswerten Fähigkeiten unter Beweis stellt.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Cong Wei,Hao... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08506.pdfYêu cầu sâu hơn