Die Studie untersucht das Problem der Längenverallgemeinerung (LG) beim Lernen von Schlussfolgerungen, bei dem trainierte Modelle Schwierigkeiten haben, Probleme mit größeren Längen oder Größen zu lösen.
Zunächst wird der Fall betrachtet, bei dem die gerichteten azyklischen Graphen (DAGs), die den Schlussfolgerungsprozess darstellen, bekannt sind. Es wird gezeigt, dass das Problem rekursiv lösbar ist, wenn der Eingaberaum der kausalen Funktion endlich ist.
Für den realistischeren Fall, bei dem nur unstrukturierte Sequenzdaten vorliegen, wird bewiesen, dass das Problem lösbar ist, wenn entweder der maximale Abstand der Eingangselemente R endlich ist oder das Problem (n,r)-konsistent ist, was eine allgemeinere Bedingung als R < ∞darstellt.
Es wird gezeigt, dass verschiedene Formulierungen desselben Schlussfolgerungsproblems unterschiedliche Eigenschaften in Bezug auf LG aufweisen können. Empirische Ergebnisse mit einem Transformer-Modell bestätigen die theoretischen Erkenntnisse für verschiedene Probleme wie Parität, Addition und Multiplikation.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Changnan Xia... alle arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00560.pdfDomande più approfondite