Core Concepts
희소 특징 회로를 사용하여 언어 모델의 예상치 못한 행동을 설명할 수 있다.
Abstract
이 논문은 언어 모델의 행동을 설명하기 위한 희소 특징 회로 발견 방법을 제안한다.
희소 자동 인코더를 사용하여 언어 모델의 은닉 상태에서 사람이 해석할 수 있는 특징을 식별한다.
선형 근사를 사용하여 이러한 특징들이 모델 행동에 미치는 인과적 영향을 효율적으로 계산한다.
이를 통해 모델 행동을 설명하는 희소 특징 회로를 발견할 수 있다.
이 방법은 기존 연구에 비해 더 해석 가능하고 간결한 회로를 제공한다. 또한 이를 활용하여 의도하지 않은 신호에 대한 모델의 민감도를 제거할 수 있다.
마지막으로 이 방법을 확장하여 수천 개의 자동 발견된 모델 행동에 대한 회로를 발견하는 완전 자동화된 파이프라인을 제시한다.
Stats
희소 특징 회로는 모델 행동의 대부분을 100개 미만의 노드로 설명할 수 있다.
반면 뉴런 회로는 모델 행동의 절반을 설명하기 위해 1500개 이상의 뉴런이 필요하다.
Quotes
"희소 특징 회로는 모델 행동을 설명하는 데 있어 더 해석 가능하고 간결하다."
"희소 특징 회로를 사용하면 의도하지 않은 신호에 대한 모델의 민감도를 제거할 수 있다."