Der Artikel stellt Dial-MAE, eine neuartige Post-Training-Methode für Bi-Encoder-Modelle in der Dialogantwortauswahl, vor. Dial-MAE verwendet eine asymmetrische Encoder-Decoder-Architektur, um die Ausrichtung der Merkmale von Dialogkontext und Antwort zu verbessern.
Der Encoder erhält den maskierten Dialogkontext als Eingabe und erzeugt einen Dialogkontextvektor. Der Decoder rekonstruiert dann die maskierte Antwort mit Hilfe des Dialogkontextvektors. Durch diese Aufgabe muss der Encoder die Merkmale der richtigen Antwort vorhersagen, wenn er den Dialogkontext codiert. Dies führt zu einer besseren Ausrichtung der Merkmale von Kontext und Antwort.
Darüber hinaus verwenden die Autoren eine asymmetrische Maskierungsstrategie, bei der der Decoder eine höhere Maskierungsrate hat als der Encoder. Dies zwingt den Decoder, sich stärker auf den vom Encoder erzeugten Dialogkontextvektor zu verlassen, was wiederum den Encoder dazu bringt, komplexere Informationen über den Dialogkontext in einem dichten Vektor zu aggregieren.
Die Experimente zeigen, dass Dial-MAE den aktuellen Stand der Technik auf zwei gängigen Benchmarks für die Dialogantwortauswahl übertrifft und gleichzeitig eine schnellere Antwortgeschwindigkeit bietet.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhenpeng Su,... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2306.04357.pdfDeeper Inquiries