Der Artikel beschreibt einen neuen Ansatz zur visuell verankerten Sprachmodellierung, genannt "LexiContrastive Grounding" (LCG). LCG kombiniert die nächste Tokenvorhersage mit einem kontrastiven visuellen Verankerungsziel, das auf frühen Schichten des Sprachmodells angewendet wird.
In Experimenten zeigt sich, dass LCG im Vergleich zu rein sprachbasierten Modellen sowie anderen visuell-sprachlichen Lernverfahren wie CLIP, GIT und Flamingo eine effizientere Wortbedeutungserlernung ermöglicht. Dies gilt sowohl für Benchmarks zur Erfassung lexikalischer Semantik als auch für die allgemeine Sprachmodellierung, gemessen an der Perplexität.
Die Analyse zeigt, dass LCG insbesondere die Bedeutungen konkreter Wörter besser erfasst als rein sprachbasierte Modelle. Dies deutet darauf hin, dass die visuelle Verankerung den Erwerb konkreter Wortbedeutungen fördert, während der Erwerb abstrakter Wörter weitere Mechanismen erfordert.
Insgesamt unterstreicht der Artikel das Potenzial, Sprachmodelle durch visuelle Verankerung effizienter und menschenähnlicher zu gestalten.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chengxu Zhua... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14551.pdfDeeper Inquiries