Core Concepts
Die Qualität des Kontexts während des Trainings beeinflusst die Leistung von Fusion-in-Decoder Modellen für extraktives offenes Domänenfrage-Antworten. Modelle, die auf Kontexten mit unterschiedlicher Qualität trainiert werden, zeigen unterschiedliche Muster in der Verteilung der Aufmerksamkeit auf relevante und irrelevante Passagen, was zu einer Überanpassung an die Kontextqualität während des Trainings führt.
Abstract
Die Studie untersucht, wie sich die Menge und Qualität des Kontexts während des Trainings auf die Leistung von Fusion-in-Decoder (FiD) Modellen für extraktives offenes Domänenfrage-Antworten auswirken.
Zentrale Erkenntnisse:
- FiD Modelle überanpassen sich an die Kontextqualität während des Trainings, was zu einer verschlechterten Leistung in Umgebungen mit anderer Kontextqualität führt.
- FiD Modelle überanpassen sich weniger an die Kontextmenge als an die Kontextqualität.
- FiD Modelle, die mit unterschiedlicher Kontextqualität trainiert wurden, zeigen unterschiedliche Muster in der Verteilung der Aufmerksamkeit (Cross-Attention). Je höher die Kontextqualität während des Trainings, desto gleichmäßiger verteilen die Modelle ihre Aufmerksamkeit auf die Passagen.
Basierend auf diesen Beobachtungen schlagen die Autoren eine Methode vor, um die Überanpassung an die Kontextqualität zu mildern, indem die Selektivität der Aufmerksamkeitsverteilung während der Inferenz angepasst wird. Die Experimente zeigen, dass dieser Ansatz die Leistung der Modelle in Umgebungen mit unterschiedlicher Kontextqualität verbessert.
Stats
Die Kontextqualität wird als der Anteil relevanter Passagen im Kontext definiert.
Die Kontextmenge wird als die Anzahl der Passagen im Kontext definiert.
Quotes
Keine relevanten Zitate identifiziert.