Die Studie untersucht den Einfluss der Datendiversität auf das Fine-Tuning von Sprachmodellen zur Ausrichtung auf menschliche Präferenzen. Bei begrenzten Annotationsressourcen wird untersucht, ob es effektiver ist, die Diversität der Eingabeaufforderungen oder der Antworten zu erhöhen.
Die Ergebnisse zeigen, dass die Erhöhung der Anzahl der Antworten zu einer größeren Verbesserung der Leistung führt als die Erhöhung der Anzahl der Eingabeaufforderungen, bei gleichem Gesamtumfang der Annotationen. Dies wird damit begründet, dass nur wenige Eingabeaufforderungen ausreichen, um die Sprachmodelle für die Ausrichtung auf menschliche Präferenzen zu aktivieren, während mehr Antworten klarere Signale für das Fine-Tuning liefern.
Darüber hinaus wird eine empirische Metrik zur Messung der Eingabeaufforderungsdiversität vorgestellt, die eine lineare Korrelation mit der endgültigen Leistung der feingejusteten Sprachmodelle aufweist. Schließlich wird eine Methode zur Steigerung der Diversität durch gezielte Datenerweiterung präsentiert, die zu einer Verbesserung der Leistung führt.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询