Die Studie untersucht den Einfluss der Datendiversität auf das Fine-Tuning von Sprachmodellen zur Ausrichtung auf menschliche Präferenzen. Bei begrenzten Annotationsressourcen wird untersucht, ob es effektiver ist, die Diversität der Eingabeaufforderungen oder der Antworten zu erhöhen.
Die Ergebnisse zeigen, dass die Erhöhung der Anzahl der Antworten zu einer größeren Verbesserung der Leistung führt als die Erhöhung der Anzahl der Eingabeaufforderungen, bei gleichem Gesamtumfang der Annotationen. Dies wird damit begründet, dass nur wenige Eingabeaufforderungen ausreichen, um die Sprachmodelle für die Ausrichtung auf menschliche Präferenzen zu aktivieren, während mehr Antworten klarere Signale für das Fine-Tuning liefern.
Darüber hinaus wird eine empirische Metrik zur Messung der Eingabeaufforderungsdiversität vorgestellt, die eine lineare Korrelation mit der endgültigen Leistung der feingejusteten Sprachmodelle aufweist. Schließlich wird eine Methode zur Steigerung der Diversität durch gezielte Datenerweiterung präsentiert, die zu einer Verbesserung der Leistung führt.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Feifan Song,... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11124.pdfPertanyaan yang Lebih Dalam