Der Kern der Arbeit ist die Entwicklung eines neuen Feel-Good Thompson Sampling Algorithmus (FGTS.CDB) für das Problem der linearen kontextuellen Duell-Banditen. Der Algorithmus erreicht eine nahezu minimax-optimale Regret-Schranke und übertrifft bestehende Algorithmen deutlich in empirischen Experimenten.
Wir präsentieren eine neue Methode namens One Class Signed Distance Function (OCSDF), um Einklassen-Klassifizierung (OCC) durchzuführen, indem wir nachweislich die Signed Distance Function (SDF) zur Grenze der Unterstützung einer beliebigen Verteilung lernen. Der Abstand zur Unterstützung kann als Normalitätsscore interpretiert werden, und seine Approximation mit 1-Lipschitz-Neuronalnetzen bietet Robustheitsgrenzen gegen l2-Adversarial-Angriffe, eine bisher wenig erforschte Schwäche von Deep-Learning-basierten OCC-Algorithmen.
DEFT ist ein IO-bewusster Baum-Aufmerksamkeits-Algorithmus, der die Inferenz-Effizienz von Großsprachmodellen durch Optimierung des Speicherzugriffs erheblich verbessert.
Der Hauptbeitrag dieser Arbeit ist die Entwicklung eines neuartigen Regularisierungsverfahrens namens Logit-Oriented Adversarial Training (LOAT), das die Leistung gängiger adversarieller Trainingsalgorithmen ohne wesentlichen Rechenaufwand verbessern kann.
Der Algorithmus konvergiert nachweislich zu einer Belohnung, für die der Experte nahezu optimal ist, und zu einer Richtlinienpolitik, die der Expertenpolitik nahekommt.
Die Autoren schlagen eine neuartige Slide-Verlustfunktion vor, um eine robuste binäre Support-Vektor-Maschine (ℓs-SVM) zu konstruieren, die die Generalisierungsfähigkeit im Vergleich zu herkömmlichen SVM-Klassifizierern verbessert.
Das BEND-Verfahren nutzt Diffusionsmodelle, um effizient eine Vielzahl an Basisklassifikatoren mit hoher Diversität zu generieren und diese dann mittels Bagging-Methoden zu einem leistungsfähigen Gesamtmodell zu kombinieren.
Ein Regularisierter Adaptiver Momentum Dual Averaging (RAMDA) Algorithmus, der eine lokal optimale Struktur in den trainierten Modellen garantiert und gleichzeitig eine hervorragende Vorhersageleistung erzielt.
Unser Lernalgorithmus HYPO lernt domäneninvariante Darstellungen im hyperspärischen Raum, indem er die Variation innerhalb einer Klasse minimiert und die Trennung zwischen Klassen maximiert. Dies führt zu einer verbesserten Generalisierung auf unbekannte Verteilungen.