이 논문은 언어 모델의 활성화를 해석하기 위한 새로운 기법인 게이트 스파스 오토인코더(Gated Sparse Autoencoder)를 소개한다. 기존의 스파스 오토인코더(Sparse Autoencoder)는 L1 정규화를 사용하여 희소성을 유도하지만, 이로 인해 특징 활성화 값이 체계적으로 과소평가되는 문제가 있었다. 게이트 스파스 오토인코더는 이 문제를 해결하기 위해 특징 활성화 여부와 특징 활성화 크기를 분리하여 학습한다. 이를 통해 동일한 계산 자원으로 더 높은 재구성 정확도와 더 낮은 특징 활성화 수를 달성할 수 있다. 실험 결과, 게이트 스파스 오토인코더는 기존 스파스 오토인코더에 비해 Pareto 최적 성능을 보였으며, 특징 활성화 값의 과소평가 문제도 해결하였다. 또한 사람 평가자들이 게이트 스파스 오토인코더와 기존 스파스 오토인코더의 특징을 유사하게 해석할 수 있음을 확인하였다.
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות