Konsep Inti
Tiefenneuronale Netzwerke tendieren dazu, bei zunehmend verteilungsfremden Eingaben auf eine konstante Vorhersage zu konvergieren, die oft der optimalen konstanten Lösung (OCS) entspricht.
Abstrak
Die Studie zeigt, dass Vorhersagen von Tiefenneuronalen Netzwerken bei zunehmend verteilungsfremden Eingaben oft zu einem konstanten Wert konvergieren, der oft der optimalen konstanten Lösung (OCS) entspricht - also der Vorhersage, die den durchschnittlichen Verlust über die Trainingsdaten ohne Beobachtung der Eingabe minimiert.
Dies wurde über 8 Datensätze mit verschiedenen Verteilungsverschiebungen, 3 Verlustfunktionen (Kreuzentropie, MSE, Gaußsche NLL) und verschiedene Architekturen (CNNs, Transformer) beobachtet.
Die Autoren erklären dieses Phänomen damit, dass Merkmalsrepräsentationen verteilungsfremder Eingaben tendenziell kleinere Normen aufweisen, was dazu führt, dass der Netzwerkausgang zunehmend von den eingabeunabhängigen Netzwerkkomponenten (z.B. Bias-Vektoren) dominiert wird, die oft nahe der OCS liegen.
Theoretische Analysen für tiefe homogene Netzwerke mit ReLU-Aktivierungen unterstützen diesen Mechanismus. Abschließend zeigen die Autoren, wie man diese Erkenntnisse nutzen kann, um risikoarme Entscheidungsfindung in Gegenwart verteilungsfremder Eingaben zu ermöglichen.
Statistik
Die Norm der Merkmalsrepräsentationen verteilungsfremder Eingaben in späteren Netzwerkschichten ist tendenziell kleiner als die von Eingaben aus der Trainingverteilung.
Der Anteil der Merkmalsrepräsentationen, der im Spannraum der nachfolgenden linearen Schicht liegt, nimmt mit zunehmender Verteilungsverschiebung ab.
Die Akkumulation der Modellkonstanten (z.B. Bias-Terme) nähert sich oft der OCS an.
Kutipan
"Neural networks predictions on high-dimensional OOD inputs tend to revert towards the optimal constant solution."
"As the likelihood of samples from POOD(x) under Ptrain(x) decreases, fˆθ(x) for x ∼ POOD(x) tends to approach f ∗
constant."