Wir präsentieren explizite Integrationsformen für einschichtige Neuronale Netze mit beliebiger integrierbarer Aktivierungsfunktion sowie eine stückweise Struktur für die Integration von mehrschichtigen Neuronalen Netzen mit ReLU-Aktivierungsfunktion. Darüber hinaus entwickeln wir einen Vorwärtsintegrations-Algorithmus mit einem Korrekturverfahren, um die Genauigkeit der Integration zu verbessern.
Stochastisches Runden von hochdimensionalen und schmalen Matrizen führt mit hoher Wahrscheinlichkeit dazu, dass der kleinste Singulärwert der gerundeten Matrix deutlich von Null entfernt ist - unabhängig davon, wie nah die Originalmatrix an Rangdefizit ist oder sogar rangdefizit ist. Das stochastische Runden regularisiert die Matrizen implizit.
Ein neuartiges Paar von Gaußschen Prozessen, die die Vergleichsungleichungen von Gordon erfüllen, wird identifiziert. Daraus folgt eine Verallgemeinerung des konvexen Gaußschen Min-Max-Theorems, die auf Probleme der Mehrkanal-Gaußschen Regression und der binären Klassifizierung von allgemeinen Gaußschen Mischverteilungen angewendet wird.
Der Autor führt zwei modifizierte Versionen des Gradientenabstiegsverfahrens ein, die an die Geometrie des Problems angepasst sind, und beweist, dass im überparametrisierten Fall alle Bahnen des modifizierten Gradientenabstiegs die $\mathcal{L}^2$-Kosten mit einer einheitlichen exponentiellen Konvergenzrate zum globalen Minimum treiben.
Die Arbeit untersucht die Eigenschaften und Optimierung der diskreten geschnittenen Wasserstein-Verluste, einer beliebten Alternative zur Wasserstein-Distanz in der Praxis. Insbesondere werden die Regularität, Optimierungseigenschaften und Konvergenz der Monte-Carlo-Schätzung dieser Verluste analysiert.
Transformers können den größten gemeinsamen Teiler (GGT) zweier positiver ganzer Zahlen erlernen, indem sie eine Liste von Zahlen lernen, die Produkte von Teilern der Basis und kleinen Primzahlen sind, und dann den größten Eintrag in dieser Liste vorhersagen, der beide Eingaben teilt.