Temel Kavramlar
Unser UniBind lernt einen modality-agnostischen und ausgewogenen Darstellungsraum, indem es die Ausrichtungszentren mithilfe von Großsprachmodellen (LLMs) und multimodalen Großsprachmodellen (multimodalen LLMs) konstruiert.
Özet
Die Autoren präsentieren UniBind, einen flexiblen und effizienten Ansatz, der einen vereinheitlichten Darstellungsraum für sieben verschiedene Modalitäten - Bild, Text, Audio, Punktwolke, Wärme, Video und Ereignisdaten - erlernt.
Im Gegensatz zu bestehenden Methoden, die ein bestimmtes visuelles Modalität als Ausrichtungszentrum behandeln, macht UniBind die Ausrichtungszentren modalitätsagnostisch und lernt dann einen vereinheitlichten und ausgewogenen Darstellungsraum, der durch LLMs und multimodale LLMs unterstützt wird.
Konkret konstruiert UniBind zunächst eine Wissensbasis von Texten mithilfe von LLMs und multimodalen LLMs. Dann erstellt es adaptive, LLM-angereicherte klassenweise Einbettungszentren basierend auf der Wissensbasis und richtet alle Modalitätseinbettungen auf diese Einbettungszentren aus, um einen vereinheitlichten Darstellungsraum zu erreichen.
UniBind zeigt starke Leistungsverbesserungen bei der Nullschuss-Erkennung über verschiedene Modalitäten hinweg und erreicht neue State-of-the-Art-Ergebnisse bei der feinabgestimmten Erkennung, während es gleichzeitig 90% der lernbaren Parameter reduziert.
İstatistikler
"Ein Flugzeug ist auf der Startbahn zu sehen."
"Ein Hubschrauber steht auf dem Boden."
"Ein Auto fährt auf der Straße."
Alıntılar
"Unser UniBind lernt einen modality-agnostischen und ausgewogenen Darstellungsraum, indem es die Ausrichtungszentren mithilfe von Großsprachmodellen (LLMs) und multimodalen Großsprachmodellen (multimodalen LLMs) konstruiert."
"UniBind zeigt starke Leistungsverbesserungen bei der Nullschuss-Erkennung über verschiedene Modalitäten hinweg und erreicht neue State-of-the-Art-Ergebnisse bei der feinabgestimmten Erkennung, während es gleichzeitig 90% der lernbaren Parameter reduziert."