Robuste und interpretierbare Präferenzmodelle durch Komposition von Merkmalen
Kompositionelle Präferenzmodelle (CPMs) zerlegen die globale Präferenzbeurteilung in interpretierbare Merkmale, extrahieren Skalenwerte für diese Merkmale mithilfe eines promptbasierten Sprachmodells und aggregieren diese Werte mit einer logistischen Regressionsklassifizierung. Dieser Ansatz ermöglicht es, die Eigenschaften der Präferenzdaten zu kontrollieren, die zum Training des Präferenzmodells verwendet werden, und es auf Merkmalen aufzubauen, von denen angenommen wird, dass sie das menschliche Präferenzurteil bestimmen.