핵심 개념
언어 모델은 학습 과정에서 매개변수 지식을 습득하며, 이는 모델의 가중치 내에 내재되어 있다. 하지만 언어 모델의 확장성이 증가함에 따라 모델의 내부 작동 원리를 이해하고 이 내재된 지식을 큰 비용 없이 업데이트하거나 수정하는 것이 중요한 과제가 되었다. 이 연구는 인스턴스 귀속(IA)과 뉴런 귀속(NA) 방법을 통해 언어 모델에 내재된 지식을 공개하고 이를 체계적으로 비교하는 새로운 평가 프레임워크를 제안한다.
초록
이 연구는 언어 모델의 내부 작동 원리와 매개변수 지식을 이해하기 위해 인스턴스 귀속(IA)과 뉴런 귀속(NA) 방법을 비교하는 통합 평가 프레임워크를 제안한다.
-
귀속 방법 결과 정렬: NA-Instances와 IA-Neurons 방법을 도입하여 IA와 NA 결과를 공통된 관점에서 비교할 수 있게 한다.
-
뉴런 귀속 충실도 테스트: 뉴런 귀속 방법이 모델의 예측에 사용된 매개변수 지식을 충분히 그리고 포괄적으로 설명하는지 평가한다.
-
영향력 있는 훈련 인스턴스로 미세 조정: 귀속 방법이 모델의 매개변수 지식을 대표하는 훈련 인스턴스를 발견하는 정도를 평가한다.
실험 결과, NA 방법이 더 다양하고 포괄적인 정보를 제공하지만, IA 방법 또한 NA로는 발견되지 않는 고유하고 가치 있는 통찰을 제공한다. 이는 IA와 NA 방법을 결합하여 언어 모델의 매개변수 지식에 대한 더 전체적인 이해를 얻을 수 있음을 시사한다.
통계
언어 모델의 예측에 가장 큰 영향을 미치는 훈련 인스턴스 10개 중 고유한 인스턴스의 수는 NA-Instances가 IF와 GS보다 훨씬 많다.
예를 들어, BLOOM-560m 모델에서 NA-Instances는 1776개의 고유 인스턴스를 찾았지만, IF와 GS는 각각 43개의 고유 인스턴스만 찾았다.
인용구
"언어 모델은 학습 과정에서 매개변수 지식을 습득하며, 이는 모델의 가중치 내에 내재되어 있다."
"하지만 언어 모델의 확장성이 증가함에 따라 모델의 내부 작동 원리를 이해하고 이 내재된 지식을 큰 비용 없이 업데이트하거나 수정하는 것이 중요한 과제가 되었다."
"이 연구는 인스턴스 귀속(IA)과 뉴런 귀속(NA) 방법을 통해 언어 모델에 내재된 지식을 공개하고 이를 체계적으로 비교하는 새로운 평가 프레임워크를 제안한다."