이 연구는 GPT-NEO 125M 모델이 학습 데이터에서 전체 문단을 암기하고 재현할 수 있는 메커니즘을 분석합니다. 주요 발견은 다음과 같습니다:
암기된 문단과 암기되지 않은 문단의 모델 내부 처리 과정에 차이가 있습니다. 암기된 문단의 경우 하위 층에서 더 큰 기울기가 관찰됩니다.
암기된 문단은 일부 구별되는 토큰들에 의해 크게 영향을 받으며, 이러한 토큰들은 주로 1번 층의 2번 주의 집중 헤드에 의해 처리됩니다.
1번 층의 2번 주의 집중 헤드는 코퍼스 수준의 단일 분포에서 가장 드문 토큰들에 주로 집중하는 것으로 나타났습니다.
암기된 문단은 암기되지 않은 문단에 비해 수정하기 더 어려우며, 암기된 문단의 일부 토큰을 변경해도 전체 문단의 의미와 구문이 유지되는 경우가 많습니다.
암기된 문단을 "언학습"하거나 "편집"하는 실험을 통해, 모델 내부의 특정 매개변수만을 조정하는 것이 전체 매개변수를 조정하는 것보다 효과적임을 확인했습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문