Die Studie analysiert eingehend bestehende Ansätze im Bereich des Multi-View-Darstellungslernens und hebt einen häufig übersehenen Aspekt hervor: die Redundanz zwischen konsistenten und spezifischen Darstellungen.
Um diese Herausforderung anzugehen, schlagen die Autoren einen innovativen Rahmen für das Multi-View-Darstellungslernen vor, der die Technik der "destillierten Entkopplung" einführt. Zunächst wird eine maskierte Kreuzvorhersage verwendet, um kompakte, hochwertige konsistente Darstellungen aus verschiedenen Quellen ohne zusätzlichen Rechenaufwand zu extrahieren. Anschließend wird ein destilliertes Entkopplungsmodul entwickelt, um Konsistenz-bezogene Informationen effizient aus Multi-View-Darstellungen zu filtern und so reine spezifische Darstellungen zu erhalten.
Die empirischen Auswertungen zeigen, dass höhere Maskierungsraten die Qualität der konsistenten Darstellungen deutlich verbessern. Darüber hinaus stellen die Autoren fest, dass eine Reduzierung der Dimensionalität der konsistenten Darstellungen im Vergleich zu den spezifischen Darstellungen die Qualität der kombinierten Darstellungen weiter verfeinert.
To Another Language
from source content
arxiv.org
Głębsze pytania