이 연구는 언어 모델의 내부 작동 원리와 매개변수 지식을 이해하기 위해 인스턴스 귀속(IA)과 뉴런 귀속(NA) 방법을 비교하는 통합 평가 프레임워크를 제안한다.
귀속 방법 결과 정렬: NA-Instances와 IA-Neurons 방법을 도입하여 IA와 NA 결과를 공통된 관점에서 비교할 수 있게 한다.
뉴런 귀속 충실도 테스트: 뉴런 귀속 방법이 모델의 예측에 사용된 매개변수 지식을 충분히 그리고 포괄적으로 설명하는지 평가한다.
영향력 있는 훈련 인스턴스로 미세 조정: 귀속 방법이 모델의 매개변수 지식을 대표하는 훈련 인스턴스를 발견하는 정도를 평가한다.
실험 결과, NA 방법이 더 다양하고 포괄적인 정보를 제공하지만, IA 방법 또한 NA로는 발견되지 않는 고유하고 가치 있는 통찰을 제공한다. 이는 IA와 NA 방법을 결합하여 언어 모델의 매개변수 지식에 대한 더 전체적인 이해를 얻을 수 있음을 시사한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Haeun Yu,Pep... alle arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18655.pdfDomande più approfondite