Abstract
1. 소개
최신 언어 모델의 특징
오버씽킹과 거짓 유도 헤드 식별
2. 관련 연구
다른 연구들과의 관련성
오버씽킹 및 조기 종료에 대한 이해
3. 사전 조건: 거짓 표현 학습
분류를 위한 소수 학습에 대한 설정
올바른 및 잘못된 표현의 영향
4. 나중 레이어 제로화가 정확도 향상
중간 레이어 예측 및 성능 평가
잘못된 표현에서의 성능 향상
5. 주의 깊게 관찰된 어텐션 헤드
거짓 유도 헤드 식별
거짓 표현에 대한 영향 평가
6. 헤드 제거 실험
거짓 유도 헤드 제거의 효과
올바른 및 잘못된 표현 간의 정확도 차이
7. 논의
로짓 렌즈와 프로빙의 비교
모델 행동의 원인과 결과에 대한 이해
8. 한계와 향후 연구
실험 결과의 한계
미래 연구 방향 제안
Stats
모델의 성능 향상에 대한 중요한 통계적 지표가 없습니다.