Die Studie untersucht die Gedächtnismechanismen von Sprach-Modellen, indem sie die Aneignung von Faktenwissen als Testumgebung verwendet. Die Hauptergebnisse sind:
Sprach-Modelle ohne Vortraining sind vergesslich und zeigen ein kurzfristiges Gedächtnismuster. Sie können neu erlerntes Wissen behalten, vergessen aber schnell zuvor erlerntes Wissen, sobald neues Wissen hinzukommt. Wiederholtes Lernen hat kaum Auswirkungen auf die Behaltensleistung.
Vortraining führt zu retentiven Sprach-Modellen. Im Gegensatz zu den vergesslichen Modellen ohne Vortraining können vortrainierte Sprach-Modelle durch wiederholtes Lernen das Wissen nach und nach behalten und zeigen ein langfristiges Gedächtnismuster. Je länger das Vortraining, desto stärker ist die Gedächtnisfähigkeit der Modelle.
Die Relevanz und Diversität des neu erlernten Wissens beeinflussen die Gedächtnisbildung der vortrainierten Sprach-Modelle. Hoch korreliertes neues Wissen kann das Behalten des zuvor erlernten Wissens beeinträchtigen. Außerdem tritt in der frühen Lernphase manchmal ein Gedächtniszusammenbruch auf, der mit der Diversität des neu erlernten Wissens zusammenhängt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Boxi Cao,Qia... at arxiv.org 03-14-2024
https://arxiv.org/pdf/2305.09144.pdfDeeper Inquiries