Der Artikel untersucht zwei populäre Methoden zur Ausrichtung von Sprachmodellen: KL-beschränktes Verstärkungslernen und Best-of-N.
Zunächst wird die eindeutige optimale Lösung des KL-beschränkten Verstärkungslernproblems charakterisiert. Es wird gezeigt, dass jede Ausrichtungsmethode, die einen vergleichbaren Kompromiss zwischen KL-Divergenz und erwartetem Gewinn erreicht, die optimale KL-beschränkte Lösung in Bezug auf die relative Entropie approximieren muss.
Unter vereinfachenden Annahmen über das Sprachmodell und die Belohnungsfunktion wird dann die asymptotische (in der Sequenzlänge) Entwicklung sowohl der Best-of-N-Ausrichtung als auch der KL-beschränkten Verstärkungslernmethode in Bezug auf informationstheoretische Größen charakterisiert. Es wird bewiesen, dass der Gewinn der optimalen KL-beschränkten Verstärkungslösung einem Großabweichungsprinzip genügt und seine Ratenunktion vollständig charakterisiert wird. Außerdem wird gezeigt, dass die Wachstumsrate der skalierten Kumulanten des Gewinns durch eine geeignete Rényi-Kreuzentropie charakterisiert wird.
Schließlich wird gezeigt, dass Best-of-N asymptotisch äquivalent zur KL-beschränkten Verstärkungslösung ist, indem bewiesen wird, dass ihre erwarteten Gewinne asymptotisch gleich sind, und daraus geschlossen wird, dass die beiden Verteilungen in KL-Divergenz nahe beieinander liegen müssen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문