Der Artikel führt ein neuartiges Konzept der "vokabular-definierten Semantik" ein, um die Semantik des LM-Latenzraums zu analysieren. Dabei werden folgende Schritte durchgeführt:
Definieren einer Referenzebene im Latenzraum, indem die Repräsentationen der Vokabular-Labels als "semantische Basis" verwendet werden. Dies ermöglicht eine entkoppelte, modellzentrierte semantische Analyse.
Vorschlagen einer neuartigen Methode zur Berechnung der Logits, bei der die Ähnlichkeiten der Darstellungen zu den semantischen Basen als Logits verwendet werden, anstatt die übliche Matrixmultiplikation zu verwenden. Dies nutzt die Differenzierbarkeit neuronaler Netze und die lokale Isotropie von Transformer-Modellen.
Einführen eines neuronalen Clustering-Moduls, um die Datenrepräsentationen semantisch zu kalibrieren, indem sie zu den entsprechenden semantischen Basen geclustert werden. Dies ermöglicht das Finetuning sowohl der LM-Kopf-Matrix als auch der LM-Schichten.
Die vorgeschlagenen Methoden zeigen in umfangreichen Experimenten auf verschiedenen Textverständnisdatensätzen eine hohe Effektivität und breite Anwendbarkeit, insbesondere im Vergleich zu state-of-the-art-Methoden für retrieval-basierte Generierung und parametereffizientes Finetuning.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jian Gu,Alde... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.16184.pdfDeeper Inquiries