Implizite Verzerrung der Vorhersage des nächsten Tokens
Die Arbeit untersucht die implizite Verzerrung von Gradientenabstiegsverfahren beim Training von Sprachmodellen mit der Methode der Vorhersage des nächsten Tokens. Sie zeigt, dass unter bestimmten Bedingungen der Trainingsdaten der Gradientenabstieg zu einer Lösung konvergiert, die einer Stützvektormaschinenlösung entspricht.