Ein effizientes mehrschichtiges Trainingsframework zur Beschleunigung von Transformer-Modellen
Ein mehrschichtiges Trainingsframework, das auf drei grundlegenden Operatoren basiert - Coalescing, De-coalescing und Interpolation - kann den Trainingsprozess von großen Transformer-Modellen wie BERT, GPT und DeiT erheblich beschleunigen, ohne die Leistung zu beeinträchtigen.