Core Concepts
변압기 언어 모델에서 과제 간 회로 구성 요소가 상당 부분 재사용되며, 이는 모델의 행동을 이해하는 데 도움이 될 수 있다.
Abstract
이 연구는 변압기 언어 모델에서 과제 간 회로 구성 요소의 재사용을 조사했다. 구체적으로:
간접 객체 식별(IOI) 과제에 대한 회로를 GPT2-Medium 모델에서 재현했다. 이 회로는 중복 토큰 감지, 억제 헤드, 이동 헤드로 구성된다.
색상 객체(Colored Objects) 과제에 대한 회로 분석을 수행했다. 이 회로는 IOI 회로와 매우 유사하며, 약 78%의 가장 중요한 주의 헤드가 겹친다. 주요 차이점은 내용 수집 헤드의 추가와 억제 헤드 및 부정적 이동 헤드의 부재이다.
억제 헤드와 부정적 이동 헤드에 개입하여 색상 객체 과제의 성능을 49.6%에서 93.7%로 크게 향상시켰다. 이는 이 하위 회로가 과제에 관계없이 일반적으로 작동하는 모듈식 구조임을 보여준다.
이 결과는 변압기 언어 모델의 행동을 해석 가능한 소수의 일반적인 알고리즘 구성 요소로 설명할 수 있다는 가능성을 시사한다.
Stats
색상 객체 과제에서 GPT2-Medium의 기본 정확도는 49.6%이다.
억제 헤드와 부정적 이동 헤드에 개입하면 정확도가 93.7%로 크게 향상된다.
개입 후 이동 헤드의 잘못된 색상에 대한 주의가 평균 8.7% 감소했다.
이동 헤드의 로짓 기여도가 약 3배 증가했다.
Quotes
"변압기 언어 모델에서 과제 간 회로 구성 요소가 상당 부분 재사용되며, 이는 모델의 행동을 이해하는 데 도움이 될 수 있다."
"이 결과는 변압기 언어 모델의 행동을 해석 가능한 소수의 일반적인 알고리즘 구성 요소로 설명할 수 있다는 가능성을 시사한다."