Grunnleggende konsepter
대형 언어 모델의 지식 표현 메커니즘은 단순한 키-값 메모리 모델로 설명하기 어려우며, 모델의 복잡한 구조와 주의 메커니즘을 고려해야 한다.
Sammendrag
이 논문은 대형 언어 모델의 지식 표현 메커니즘에 대한 "지식 뉴런(Knowledge Neuron) 이론"을 재평가한다. 지식 뉴런 이론은 언어 모델이 다층 퍼셉트론(MLP) 가중치를 통해 학습 말뭉치에서 사실을 회상한다고 제안한다. 이에 따르면 "지식"이 네트워크에 저장되어 있으며, MLP 모듈을 수정하면 사실적 정보 생성을 제어할 수 있다.
저자들은 이 이론이 과도한 단순화라고 주장한다. 기존 모델 편집 방법을 통해 언어적 현상의 표현도 수정할 수 있음을 발견했으며, 더 포괄적인 평가를 통해 사실적 정보 표현 과정을 충분히 설명하지 못한다는 것을 확인했다. MLP 가중치에 복잡한 패턴이 저장되어 있지만, 이것이 "지식"을 구성하지는 않는다. 지식 표현 과정을 이해하려면 모델의 복잡한 레이어 구조와 주의 메커니즘을 탐구해야 한다.
저자들은 통사적 현상에 대한 편집 실험을 통해 지식 뉴런 이론을 재평가했다. 통사적 현상과 사실적 정보가 동일한 방식으로 국소화되고 편집될 수 있다는 것을 발견했다. 이는 언어 모델의 형식적 능력과 기능적 능력이 동일한 기저 메커니즘에 의해 처리될 수 있음을 시사한다. 그러나 편집의 효과는 제한적이며, 이는 MLP 가중치가 "지식"을 저장하기보다는 복잡한 "토큰 표현 패턴"을 반영한다는 것을 보여준다.
Statistikk
지식 뉴런 편집 방법은 범주적 예측을 뒤집기에 충분하지 않다.
지식 뉴런 편집 방법의 신뢰도 점수는 낮다(1.66% ~ 47.86%).
랭크-원 모델 편집(ROME) 방법은 대칭성과 동의어 불변성 기준에서 좋지 않은 성능을 보인다.
Sitater
"지식 뉴런 이론은 과도한 단순화이다."
"MLP 가중치에 저장된 패턴은 언어학적으로 해석 가능하지만, 이것이 '지식'을 구성하지는 않는다."
"언어 모델의 형식적 능력과 기능적 능력이 동일한 기저 메커니즘에 의해 처리될 수 있다."