Dieser Artikel gibt einen Überblick über den Einsatz linearer Zustandsraummodelle (ZSM) in Grundlagenmodellen für maschinelles Lernen. Grundlagenmodelle wie GPT-4 zielen darauf ab, sequenzielle Daten in einen latenten Raum zu kodieren, um eine komprimierte Darstellung der Daten zu lernen. Dieses Ziel wurde auch von Regelungstheoretikern mit Hilfe von ZSM verfolgt, um dynamische Systeme effizient zu modellieren. Daher können ZSM natürlich mit der tiefen Sequenzmodellierung verbunden werden und bieten die Möglichkeit, Synergien zwischen den entsprechenden Forschungsbereichen zu schaffen.
Der Artikel gibt zunächst einen Überblick über die wesentlichen Komponenten und Überlegungen bei ZSM. Dann werden die relevantesten ZSM-Vorschläge aus der Literatur aus regelungstechnischer Sicht vorgestellt. Da diese Modelle in erster Linie durch ihre Fähigkeit, lange Kontexte zu verarbeiten, motiviert wurden, präsentieren wir den ersten Leistungsvergleich auf dem Long Range Arena (LRA) Benchmark. Abschließend werden offene Forschungsfragen diskutiert, die dazu beitragen könnten, ZSM weiterzuentwickeln und die Felder der Grundlagenmodelle und der Systemtheorie und Regelungstechnik stärker zu verknüpfen.
To Another Language
from source content
arxiv.org
Дополнительные вопросы