Octavius ist ein neuartiges und umfassendes Framework, das entwickelt wurde, um die Herausforderung der Aufgabeninterferenz in komplexen Lernszenarien effektiv anzugehen. Durch die Integration von Mixture-of-Experts (MoE) und LoRA präsentiert es einen LoRA-MoE-Decoder, der spezialisierte Lernpfade für verschiedene Aufgaben und Modalitäten bereitstellt.
Nach der Validierung über mehrere Modalitäten und Aufgaben hinweg lindert Octavius die schwerwiegende "Tug-of-War"-Problematik und erzielt in sowohl 2D- als auch 3D-Aufgaben eine signifikante Leistungssteigerung.
Der Schlüssel zu diesem Erfolg liegt in der Verwendung des LoRA-MoE-Decoders, der eine instanzbasierte Gate-Routing-Strategie einsetzt, um Aufgaben und Modalitäten effizient zuzuweisen. Dadurch können die Modelle spezialisiertes Wissen für verschiedene Aufgaben erwerben, ohne dass es zu Interferenzen kommt.
Darüber hinaus entwickelt Octavius einen dedizierten 3D-Punktwolken-Encoder namens "Object-As-Scene", der eine sprachlich ausgerichtete Repräsentation der gesamten Szene generiert. Dies ermöglicht es den Sprachmodellen, die semantischen Informationen der 3D-Umgebung besser zu verstehen.
Die Experimente zeigen, dass Octavius die Leistung in verschiedenen 2D- und 3D-Aufgaben um etwa 20% verbessern kann, während es nur wenige zusätzliche trainierbare Parameter erfordert.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zeren Chen,Z... kl. arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.02684.pdfDybere Forespørgsler