In diesem Artikel wird die Leistung von Rekurrenten Neuronalen Netzen (RNNs) im Vergleich zu Transformers bei der Lösung algorithmischer Probleme untersucht. Es wird gezeigt, dass RNNs, trotz ihrer Effizienz bei der Verarbeitung langer Sequenzen, Schwierigkeiten haben, Informationen aus dem Kontext abzurufen. Durch die Einführung von Retrieval-Augmented Generation (RAG) können RNNs jedoch die Lücke in der Repräsentationskraft schließen und alle polynomial lösbaren Probleme mit CoT lösen. Es wird auch gezeigt, dass Transformers mit CoT in der Lage sind, RNNs mit CoT effizient zu simulieren. Der Artikel untersucht verschiedene Techniken zur Verbesserung der Fähigkeit von RNNs zum In-Context Retrieval und schließt damit die Repräsentationslücke mit Transformers.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Kaiyue Wen,X... alle arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18510.pdfDomande più approfondite