Untersuchung des Zusammenhangs zwischen Modellarchitektur und der Fähigkeit zum Lernen im Kontext
Alle betrachteten Architekturen können unter einer breiteren Palette von Bedingungen als bisher dokumentiert In-Context-Lernen durchführen. Darüber hinaus beobachten wir starke Unterschiede in der statistischen Effizienz und Konsistenz, wenn die Anzahl der In-Context-Beispiele und der Schwierigkeitsgrad variiert werden. Einige Alternativen zur Aufmerksamkeit sind manchmal wettbewerbsfähig mit oder besser im In-Context-Lernen als Transformers, zeigen aber keine Konsistenz über alle Aufgaben hinweg.