이 연구는 대규모 언어 모델의 순환적 학습 과정에서 나타나는 예측적 복구 현상을 탐구한다. 일반적으로 신경망 모델은 순차적으로 다른 과제를 학습할 때 이전 과제에 대한 지식을 망각하는 '재앙적 간섭' 현상을 겪는다. 그러나 이 연구에서는 대규모 언어 모델이 문서를 순환적으로 반복 학습할 때 이전에 학습한 문서에 대한 망각을 예측하여 복구하는 현상을 발견했다.
이 현상은 모델의 규모가 커질수록 더 강하게 나타나며, 학습 과정에서 각 문서에 충분한 학습 기회가 주어질수록 더 강화된다. 또한 이 현상은 언어 모델뿐만 아니라 이미지 모델에서도 관찰되었다.
연구진은 모델의 gradient, 가중치, 활성화 패턴 등을 분석하여 이 현상의 내부 메커니즘을 탐구했다. 이를 통해 순환적 학습 환경에서 과대 모수화된 신경망 모델이 보이는 독특한 학습 동역학을 이해할 수 있었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yanlai Yang,... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09613.pdfDeeper Inquiries