핵심 개념
대규모 언어 모델의 은닉 활성화에서 사람이 이해할 수 있는 개념을 식별하는 기술을 제시한다. 이를 통해 모델의 추론 과정을 시각화하고 모델의 잘못된 또는 바람직하지 않은 응답을 이해할 수 있다.
초록
이 연구는 대규모 언어 모델(LLM)의 은닉 활성화에서 사람이 이해할 수 있는 개념을 식별하는 기술을 제시한다. 주요 내용은 다음과 같다:
- 주어(subject)와 목적어(object) 간의 관계를 선형 변환으로 모델링하는 선형 관계 임베딩(LRE)을 사용한다.
- LRE를 역변환하여 목적어 활성화에서 주어 활성화로 매핑하는 선형 관계 개념(LRC)을 생성한다.
- LRC는 개념 분류기로 사용될 수 있으며, 모델 출력을 조작하여 개념을 변경할 수 있다.
- 기존 프로빙 분류기보다 분류 정확도와 인과성 측면에서 우수한 성능을 보인다.
- 다중 토큰 목적어를 처리하기 위해 LRE 계산 방식을 개선하였다.
- 모델 중간 층의 목적어 활성화를 사용하여 분류 성능을 향상시켰다.
이 기술은 언어 모델의 내부 표현을 이해하고 분석하는 데 도움이 될 것으로 기대된다.
통계
"대규모 언어 모델의 은닉 층은 1600차원 이상의 고차원 공간이다."
"현대 언어 모델인 Llama2는 가장 작은 모델(7B)에서도 4000차원 이상의 은닉 층을 가진다."
인용구
"은닉 층의 고차원성으로 인해 개념 방향을 찾기 위한 프로빙 분류기 학습에 많은 훈련 샘플이 필요할 수 있다."
"우리의 기술은 선형 관계 임베딩(LRE)을 역변환하여 개념 방향(LRC)을 생성함으로써 프로빙 분류기보다 우수한 성능을 달성한다."