Core Concepts
Ein reguliertes bedingtes Diffusionsmodell wird verwendet, um Trajektorienverteilungen zu modellieren, die mit Präferenzen über verschiedene Aufgaben hinweg ausgerichtet sind.
Abstract
Die Studie präsentiert einen Ansatz namens CAMP (Conditional Alignment via Multi-task Preference representations), der darauf abzielt, Trajektorien zu generieren, die mit Präferenzen über mehrere Aufgaben hinweg ausgerichtet sind.
Zunächst werden Präferenzrepräsentationen aus Trajektoriensegmenten extrahiert, die sowohl Präferenzen innerhalb einer Aufgabe als auch Präferenzen zwischen Aufgaben erfassen. Diese Repräsentationen werden dann verwendet, um bedingte Diffusionsmodelle zu trainieren, die Trajektorien generieren, die mit den Präferenzrepräsentationen ausgerichtet sind.
Dazu wird eine Mutual-Information-Regularisierung eingeführt, um die Ausrichtung zwischen den generierten Trajektorien und den Präferenzrepräsentationen zu verbessern. Umfangreiche Experimente auf den Benchmarks D4RL und Meta-World zeigen, dass der Ansatz im Vergleich zu bestehenden Methoden überlegene Leistung in Einzel- und Mehraufgabenszenarien erbringt und eine bessere Ausrichtung mit Präferenzen aufweist.
Stats
Die Rückgabe der generierten Trajektorien sollte mit den Rückgabebedingungen konsistent sein.
Die Präferenzrepräsentationen sollten Trajektorien mit unterschiedlichen Rückgaben und aus verschiedenen Aufgaben unterscheiden können.
Die generierten Trajektorien sollten mit den optimalen Präferenzrepräsentationen für jede Aufgabe ausgerichtet sein.
Quotes
"Trajektorien aus der i-ten Aufgabe werden gegenüber der j-ten Aufgabe bevorzugt, wenn wir die i-te Aufgabe als Zielaufgabe festlegen."
"Wir führen eine Mutual-Information-Regularisierung ein, um die Korrelation zwischen den Bedingungen und den generierten Ausgaben zu maximieren."