Die Fähigkeit mehrsprachiger Decoder-basierter vortrainierter Sprachmodelle: Auffinden und Steuern sprachspezifischer Neuronen
Decoder-basierte vortrainierte Sprachmodelle zeigen zwar hervorragende mehrsprachige Fähigkeiten, aber es ist unklar, wie sie Mehrsprachigkeit handhaben. Diese Studie analysiert das neuronale Verhalten von Decoder-basierten mehrsprachigen vortrainierten Sprachmodellen und zeigt, dass es einzigartige, sprachspezifische Neuronen gibt, die hauptsächlich in den ersten und letzten Schichten des Modells verteilt sind. Durch Eingriffe in diese Neuronen kann die Wahrscheinlichkeit des Auftretens der Zielsprache bei der Textgenerierung drastisch verändert werden.