核心概念
대형 언어 모델에 저장된 데이터를 식별하는 국소화 방법의 성능을 체계적으로 평가하고 비교한다.
摘要
이 논문은 대형 언어 모델(LLM)에 저장된 데이터를 식별하는 국소화 방법의 성능을 평가하기 위한 두 가지 벤치마크를 제안한다.
INJ 벤치마크:
- LLM의 일부 가중치에 새로운 정보를 주입하여 "ground truth" 가중치를 생성한다.
- 국소화 방법이 이 가중치를 식별할 수 있는지 직접 평가한다.
DEL 벤치마크:
- 식별된 뉴런을 제거하여 저장된 사전 훈련 시퀀스를 삭제하는 정도를 측정한다.
- 목표 시퀀스를 삭제하면서 다른 저장된 시퀀스는 유지하는 정도를 평가한다.
두 벤치마크는 서로 다른 관점을 제공하지만, 5가지 국소화 방법에 대한 일관된 순위를 보여준다.
네트워크 가지치기에서 유래된 방법들이 두 벤치마크에서 모두 우수한 성능을 보인다.
그러나 모든 평가 방법은 단일 저장된 시퀀스에 특화된 뉴런을 식별하는 데 어려움을 겪는다.
统计
저장된 시퀀스를 63.5% 삭제하기 위해 Pythia-deduped-6.9B 모델의 0.5% 뉴런을 제거해야 한다.
저장된 시퀀스를 57.7% 삭제하기 위해 Pythia-deduped-6.9B 모델의 0.5% 뉴런을 제거해야 한다.
저장된 시퀀스를 57.1% 삭제하기 위해 GPT2-XL 모델의 0.5% 뉴런을 제거해야 한다.
引用
"대형 언어 모델(LLM)은 사전 훈련 말뭉치에서 많은 시퀀스를 기억한다."
"성공적인 국소화는 기계 언학습에 대한 추가 작업을 알려줄 수 있다."
"기존 방법들은 국소화 성공 정도를 직접 평가하지 않고 있다."