Selbstausrichtung mit instruierbaren Belohnungsmodellen: SALMON - ein neuer Ansatz zur Ausrichtung von Sprachmodellen mit minimaler menschlicher Aufsicht
SALMON ist ein neuer Ansatz zur Ausrichtung von Sprachmodellen, der eine instruierbare Belohnungsmodell-Architektur verwendet, um Sprachmodelle mit minimaler menschlicher Aufsicht auszurichten. Im Gegensatz zu herkömmlichen Ansätzen wie RLHF, die stark von menschlichen Annotationen abhängig sind, ermöglicht SALMON eine skalierbare Aufsicht, indem es nur eine kleine Menge an menschlich definierten Prinzipien verwendet, um das Verhalten des Sprachmodells zu steuern.