Die Studie untersucht die Gedächtnismechanismen von Sprach-Modellen, indem sie die Aneignung von Faktenwissen als Testumgebung verwendet. Die Hauptergebnisse sind:
Sprach-Modelle ohne Vortraining sind vergesslich und zeigen ein kurzfristiges Gedächtnismuster. Sie können neu erlerntes Wissen behalten, vergessen aber schnell zuvor erlerntes Wissen, sobald neues Wissen hinzukommt. Wiederholtes Lernen hat kaum Auswirkungen auf die Behaltensleistung.
Vortraining führt zu retentiven Sprach-Modellen. Im Gegensatz zu den vergesslichen Modellen ohne Vortraining können vortrainierte Sprach-Modelle durch wiederholtes Lernen das Wissen nach und nach behalten und zeigen ein langfristiges Gedächtnismuster. Je länger das Vortraining, desto stärker ist die Gedächtnisfähigkeit der Modelle.
Die Relevanz und Diversität des neu erlernten Wissens beeinflussen die Gedächtnisbildung der vortrainierten Sprach-Modelle. Hoch korreliertes neues Wissen kann das Behalten des zuvor erlernten Wissens beeinträchtigen. Außerdem tritt in der frühen Lernphase manchmal ein Gedächtniszusammenbruch auf, der mit der Diversität des neu erlernten Wissens zusammenhängt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Boxi Cao,Qia... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2305.09144.pdfYêu cầu sâu hơn