Die Studie analysiert eingehend bestehende Ansätze im Bereich des Multi-View-Darstellungslernens und hebt einen häufig übersehenen Aspekt hervor: die Redundanz zwischen konsistenten und spezifischen Darstellungen.
Um diese Herausforderung anzugehen, schlagen die Autoren einen innovativen Rahmen für das Multi-View-Darstellungslernen vor, der die Technik der "destillierten Entkopplung" einführt. Zunächst wird eine maskierte Kreuzvorhersage verwendet, um kompakte, hochwertige konsistente Darstellungen aus verschiedenen Quellen ohne zusätzlichen Rechenaufwand zu extrahieren. Anschließend wird ein destilliertes Entkopplungsmodul entwickelt, um Konsistenz-bezogene Informationen effizient aus Multi-View-Darstellungen zu filtern und so reine spezifische Darstellungen zu erhalten.
Die empirischen Auswertungen zeigen, dass höhere Maskierungsraten die Qualität der konsistenten Darstellungen deutlich verbessern. Darüber hinaus stellen die Autoren fest, dass eine Reduzierung der Dimensionalität der konsistenten Darstellungen im Vergleich zu den spezifischen Darstellungen die Qualität der kombinierten Darstellungen weiter verfeinert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Guanzhou Ke,... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10897.pdfDomande più approfondite