Globale Konvergenz von SGD für logistischen Verlust auf zweischichtigen neuronalen Netzen
Wir zeigen eine erstmalige beweisbare Konvergenz von SGD zum globalen Minimum des angemessen regularisierten logistischen empirischen Risikos von Tiefe-2-Netzen - für beliebige Daten mit einer beliebigen Anzahl von Toren mit ausreichend glatten und beschränkten Aktivierungen wie Sigmoid und Tanh und für eine Klasse von Verteilungen, aus denen das Anfangsgewicht abgetastet wird.