Die Studie untersucht das Problem der Längenverallgemeinerung (LG) beim Lernen von Schlussfolgerungen, bei dem trainierte Modelle Schwierigkeiten haben, Probleme mit größeren Längen oder Größen zu lösen.
Zunächst wird der Fall betrachtet, bei dem die gerichteten azyklischen Graphen (DAGs), die den Schlussfolgerungsprozess darstellen, bekannt sind. Es wird gezeigt, dass das Problem rekursiv lösbar ist, wenn der Eingaberaum der kausalen Funktion endlich ist.
Für den realistischeren Fall, bei dem nur unstrukturierte Sequenzdaten vorliegen, wird bewiesen, dass das Problem lösbar ist, wenn entweder der maximale Abstand der Eingangselemente R endlich ist oder das Problem (n,r)-konsistent ist, was eine allgemeinere Bedingung als R < ∞darstellt.
Es wird gezeigt, dass verschiedene Formulierungen desselben Schlussfolgerungsproblems unterschiedliche Eigenschaften in Bezug auf LG aufweisen können. Empirische Ergebnisse mit einem Transformer-Modell bestätigen die theoretischen Erkenntnisse für verschiedene Probleme wie Parität, Addition und Multiplikation.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Changnan Xia... pada arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00560.pdfPertanyaan yang Lebih Dalam