Die Studie untersucht die Verwendung von Diffusionsmodellen, einer leistungsfähigen generativen KI-Technologie, für die datengesteuerte Black-Box-Optimierung über komplexe strukturierte Variablen.
Es wird ein semi-überwachter Lernansatz vorgestellt, bei dem ein großer Datensatz mit unmarkierten Daten und ein kleiner Datensatz mit markierten Daten vorliegen. Die markierten Daten enthalten entweder verrauschte Messungen einer reellwertigen Belohnungsfunktion oder menschliche Präferenzinformationen basierend auf paarweisen Vergleichen.
Der Kern des Ansatzes ist es, das Optimierungsproblem in ein bedingtes Stichprobenziehungsproblem umzuformulieren, um die Leistungsfähigkeit von Diffusionsmodellen für das Modellieren komplexer Verteilungen zu nutzen. Insbesondere wird ein belohnungsgesteuertes, bedingtes Diffusionsmodell vorgeschlagen, das auf den gemischten Daten trainiert wird, um Lösungen mit hoher vorhergesagter Belohnung zu erzeugen.
Theoretisch werden Fehlergrenzwerte für die generierten Lösungen hergeleitet. Der Suboptimalitätsabstand entspricht nahezu der optimalen Garantie in Off-Policy-Banditen, was die Effizienz belohnungsgesteuerter Diffusionsmodelle für Black-Box-Optimierung demonstriert. Darüber hinaus wird gezeigt, dass das Modell bei Daten mit einer niedrigdimensionalen latenten Unterraumstruktur effizient hochwertige Lösungen erzeugt, die die latente Struktur eng respektieren.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询