Durch die Umformulierung des Optimierungsproblems in ein bedingtes Stichprobenziehungsproblem können Diffusionsmodelle effizient für die Generierung von Lösungen mit hoher Belohnung genutzt werden. Der Schlüssel liegt darin, ein belohnungsgesteuertes, bedingtes Diffusionsmodell zu trainieren, um Lösungen mit hoher vorhergesagter Belohnung zu erzeugen.
Die Effektivität der Sharpness-Aware-Minimierung (SAM) beruht hauptsächlich auf dem Batchspezifischen stochastischen Gradientenrauschen in der Perturbationsrichtung, während der volle Gradientenanteil die Generalisierungsleistung beeinträchtigt. Durch Entfernung des vollen Gradientenanteils in der Perturbation kann die Generalisierung weiter verbessert werden.
CaVE ist ein neuer Ansatz für das End-to-End-Training von Vorhersage-dann-Optimierung, der die vorhergesagten Kostenvektoren an den normalen Kegel des wahren optimalen Lösungsvektors ausrichtet. Dadurch wird die Notwendigkeit umgangen, das ursprüngliche binäre lineare Programm während des Trainings zu lösen, was zu einer deutlichen Beschleunigung der Trainingszeit führt, ohne Einbußen bei der Lösungsqualität.
In dieser Arbeit wird ein neuer Algorithmus namens SZOHT (Stochastic Zeroth-Order Hard Thresholding) vorgestellt, der es ermöglicht, ℓ0-beschränkte Optimierungsprobleme mit Hilfe von Zeroth-Order Gradientenschätzungen zu lösen. Der Algorithmus kombiniert eine neuartige Zeroth-Order Gradientenschätzung mit dem Hard-Thresholding-Operator und bietet eine Konvergenzanalyse, die zeigt, dass SZOHT eine dimensionsunabhängige Abfragekomplexität im glatten Fall und eine schwach dimensionsabhängige Komplexität im allgemeineren Fall der beschränkten starken Glattheit (RSS) erreichen kann.
Durch die Formulierung des Prompt-Lernens als ein diskretes, gradientenfreies Optimierungsproblem können verschiedene Metaheuristiken effektiv eingesetzt werden, um leistungsfähige und interpretierbare Prompts zu entdecken.
Die Existenz von Datenquellen unterschiedlicher Genauigkeit (Fidelität) bei teuren Blackbox-Problemen ermöglicht die Erstellung von Ersatzmodellen, die teure Auswertungen der Blackbox reduzieren. Die Studie charakterisiert, wann eine niedrigwertige Datenquelle schädlich für die Erstellung solcher Ersatzmodelle sein kann.
TRAM kombiniert Schärfe-bewusste Minimierung (SAM) mit Vertrauensbereichsoptimierung, um sowohl flachere Minima im Parameterraum als auch glattere Repräsentationen im Funktionsraum zu erzielen, um die Domänengeneralisierung zu verbessern.