Core Concepts
Transformatoren-Modelle sind eine Klasse von Deep-Learning-Modellen, die in den letzten Jahren einen enormen Aufschwung erlebt haben. Dieser Artikel bietet einen umfassenden Katalog und eine Einführung in die wichtigsten Aspekte und Innovationen dieser Modelle.
Abstract
Der Artikel beginnt mit einer Einführung in die Transformatoren-Architektur, die aus einem Encoder und einem Decoder besteht. Der Encoder nimmt die Eingabe auf und codiert sie in einen festen Vektor, während der Decoder diesen Vektor in eine Ausgabesequenz decodiert. Ein Schlüsselelement der Transformatoren ist der Attention-Mechanismus, der es ermöglicht, dass jedes Token in der Eingabe direkt von allen anderen Tokens abhängig ist.
Der Artikel unterscheidet zwischen Grundmodellen (foundation models), die auf großen Daten trainiert werden, und feingejusteten Modellen (fine-tuned models), die für spezifische Aufgaben weiter trainiert werden. Beispiele für Grundmodelle sind BERT und GPT, die für eine Vielzahl von Sprachtaken eingesetzt werden können. Feingejustete Modelle wie InstructGPT werden dann für bestimmte Anwendungen wie Dialogagenten optimiert.
Der Hauptteil des Artikels ist ein umfassender Katalog der wichtigsten Transformatoren-Modelle. Für jedes Modell werden Informationen zu Architektur, Trainingsziel, Anwendung, Veröffentlichungsdatum, Parameterzahl, Trainingsdaten, Lizenz und Herkunftslabor bereitgestellt. Zusätzlich werden Familienbaum und Zeitleiste der Modelle präsentiert.
Stats
"Transformatoren-Modelle haben in den letzten Jahren einen enormen Aufschwung erlebt und sind zu einem Schlüsselelement der neuen Welle der sogenannten 'Generativen KI' geworden."
"Der Encoder-Decoder-Mechanismus der Transformatoren ermöglicht es, dass jedes Token in der Eingabe direkt von allen anderen Tokens abhängig ist."
"Grundmodelle werden auf großen Daten trainiert und können dann für eine Vielzahl von Aufgaben feingejustiert werden, während feingejustete Modelle für spezifische Anwendungen optimiert werden."
Quotes
"Transformatoren sind eine Klasse von Deep-Learning-Modellen, die durch einige architektonische Merkmale definiert sind."
"Der Schlüsseleinblick des Transformatoren-Papiers, wie der Titel impliziert, war, dass Attention als einziger Mechanismus verwendet werden kann, um Abhängigkeiten zwischen Eingabe und Ausgabe abzuleiten."
"Grundmodelle werden definiert als 'jedes Modell, das auf breiten Daten trainiert wird (in der Regel unter Verwendung von Selbstüberwachung in großem Umfang), das an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann (z.B. durch Feinabstimmung)'."