대규모 언어 모델의 은닉 활성화에서 사람이 이해할 수 있는 개념을 식별하는 기술을 제시한다. 이를 통해 모델의 추론 과정을 시각화하고 모델의 잘못된 또는 바람직하지 않은 응답을 이해할 수 있다.