이 리뷰는 인공지능 시스템의 내부 작동 원리를 이해하는 기계론적 해석가능성에 대해 다룬다. 기계론적 해석가능성은 신경망의 계산 메커니즘과 표현을 인간이 이해할 수 있는 알고리즘과 개념으로 역공학하여 세부적이고 인과적인 이해를 제공한다.
먼저 신경망 표현의 기본 단위인 특징(feature)과 그 계산 과정인 회로(circuit)에 대해 설명한다. 특징은 신경망 표현의 기본 단위이며, 회로는 특징과 이를 연결하는 가중치로 구성된 하위 그래프로 신경망의 기본적인 계산 단위이다.
이어서 특징과 회로의 계산 및 추상화 과정에 대해 다룬다. 특징은 신경망 활성화 공간의 선형 방향으로 표현되며, 회로는 이러한 특징들의 상호작용을 통해 복잡한 계산을 수행한다. 이 과정에서 범용성 가설이 제시되는데, 이는 서로 다른 모델과 과제에서 유사한 특징과 회로가 발견된다는 것이다.
또한 신경망이 내부적으로 세계 모델(world model)을 형성할 수 있다는 가설을 소개한다. 이는 언어 모델이 단순한 단어 예측을 넘어 환경에 대한 인과적 모델을 학습할 수 있다는 것을 의미한다. 이는 인공지능 안전 연구에 중요한 시사점을 제공한다.
마지막으로 기계론적 해석가능성 연구에 사용되는 관찰 및 개입 방법론을 소개한다. 관찰 방법에는 구조화된 프로브, 로짓 렌즈, 희소 자동인코더 등이 있으며, 개입 방법에는 활성화 패칭 등이 있다. 이러한 방법론을 통해 신경망의 내부 작동 원리를 심층적으로 분석할 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문