Effizienzsteigerung von Transformern durch Vorberechnung der ersten Schicht
Eine Technik zur Beschleunigung der Inferenz von Transformern mit RoPE, indem ein großer Teil der ersten Transformer-Schicht vorberechnet wird, was zu einer leicht geringeren Latenz und geringeren Kosten pro Token führt.