Core Concepts
인공지능 시스템의 내부 작동 원리를 이해하는 것은 가치 정렬과 안전을 보장하는 데 매우 중요하다. 이 리뷰는 기계론적 해석가능성이라는 접근법을 탐구하며, 이는 신경망의 계산 메커니즘과 표현을 인간이 이해할 수 있는 알고리즘과 개념으로 역공학하여 세부적이고 인과적인 이해를 제공한다.
Abstract
이 리뷰는 인공지능 시스템의 내부 작동 원리를 이해하는 기계론적 해석가능성에 대해 다룬다. 기계론적 해석가능성은 신경망의 계산 메커니즘과 표현을 인간이 이해할 수 있는 알고리즘과 개념으로 역공학하여 세부적이고 인과적인 이해를 제공한다.
먼저 신경망 표현의 기본 단위인 특징(feature)과 그 계산 과정인 회로(circuit)에 대해 설명한다. 특징은 신경망 표현의 기본 단위이며, 회로는 특징과 이를 연결하는 가중치로 구성된 하위 그래프로 신경망의 기본적인 계산 단위이다.
이어서 특징과 회로의 계산 및 추상화 과정에 대해 다룬다. 특징은 신경망 활성화 공간의 선형 방향으로 표현되며, 회로는 이러한 특징들의 상호작용을 통해 복잡한 계산을 수행한다. 이 과정에서 범용성 가설이 제시되는데, 이는 서로 다른 모델과 과제에서 유사한 특징과 회로가 발견된다는 것이다.
또한 신경망이 내부적으로 세계 모델(world model)을 형성할 수 있다는 가설을 소개한다. 이는 언어 모델이 단순한 단어 예측을 넘어 환경에 대한 인과적 모델을 학습할 수 있다는 것을 의미한다. 이는 인공지능 안전 연구에 중요한 시사점을 제공한다.
마지막으로 기계론적 해석가능성 연구에 사용되는 관찰 및 개입 방법론을 소개한다. 관찰 방법에는 구조화된 프로브, 로짓 렌즈, 희소 자동인코더 등이 있으며, 개입 방법에는 활성화 패칭 등이 있다. 이러한 방법론을 통해 신경망의 내부 작동 원리를 심층적으로 분석할 수 있다.
Stats
신경망은 제한된 뉴런 수에 비해 훨씬 많은 특징을 표현할 수 있다.
신경망의 뉴런은 종종 여러 개념을 나타내는 다의적이다.
특징은 뉴런의 선형 조합으로 표현될 수 있다는 가설이 제안되었다.
신경망은 내부적으로 인과적 세계 모델을 형성할 수 있다는 가설이 제시되었다.
Quotes
"신경망은 제한된 뉴런 수에 비해 훨씬 많은 특징을 표현할 수 있다."
"신경망의 뉴런은 종종 여러 개념을 나타내는 다의적이다."
"특징은 뉴런의 선형 조합으로 표현될 수 있다는 가설이 제안되었다."
"신경망은 내부적으로 인과적 세계 모델을 형성할 수 있다는 가설이 제시되었다."