Genetisch quantisierungsbasierte Approximation für nichtlineare Operationen in Transformern
Eine genetisch quantisierungsbasierte Approximationsmethode namens GQA-LUT, die die Parameter automatisch unter Berücksichtigung der Quantisierung bestimmt, ermöglicht eine effiziente Implementierung nichtlinearer Operationen in Transformermodellen mit vernachlässigbarer Genauigkeitseinbuße.