Der Einfluss der Tiefe auf die kompositionelle Generalisierung in Transformer-Sprachmodellen
Tiefere Transformer-Sprachmodelle zeigen eine bessere kompositionelle Generalisierung als flachere Modelle, auch wenn der Nutzen zusätzlicher Schichten schnell abnimmt.