Conceitos essenciais
언어 모델의 내부 작동 방식을 이해하기 위해 사용되는 민감도 방향 분석 기법을 개선하고, 특히 Sparse Autoencoder(SAE) 기반의 특징 분석 방법의 효과와 한계를 명확히 밝혔습니다.
Resumo
GPT-2의 민감한 방향 조사: 개선된 기준 및 SAE 비교 분석
본 연구는 대규모 언어 모델(LM)의 해석 가능성을 높이기 위해 민감도 방향 분석 기법을 개선하고, 특히 Sparse Autoencoder(SAE)를 활용한 특징 추출 방법의 효과와 한계를 심층적으로 분석하는 것을 목표로 합니다.
본 연구에서는 GPT2-small 모델의 중간 계층 활성화 값에 다양한 유형의 摂動을 가하고, 이로 인한 모델 출력의 변화를 KL divergence를 통해 측정하여 민감도를 분석했습니다.
주요 섭동 방향
기존 연구(Heimersheim and Mendel, 2024)에서 사용된 무작위 방향 섭동(isotropic random, cov-random difference, real difference)
본 연구에서 제안하는 개선된 무작위 방향 섭동(cov-random mixture, real mixture)
SAE 재구축 오류 방향(SAE Reconstruction Error Direction)
SAE 특징 방향(SAE Feature Direction)
SAE 모델 유형
Traditional SAE
End-to-end SAE (e2e SAE)
End-to-end SAE with downstream minimization (e2e+ds SAE)