Die Memorisationskapazität von Attention-Layern in Transformers wird durch die Anzahl der Köpfe, die Kontextgröße und die Dimension beeinflusst.