이 논문은 대형 언어 모델(LLM)에 저장된 데이터를 식별하는 국소화 방법의 성능을 평가하기 위한 두 가지 벤치마크를 제안한다.
INJ 벤치마크:
DEL 벤치마크:
두 벤치마크는 서로 다른 관점을 제공하지만, 5가지 국소화 방법에 대한 일관된 순위를 보여준다.
네트워크 가지치기에서 유래된 방법들이 두 벤치마크에서 모두 우수한 성능을 보인다.
그러나 모든 평가 방법은 단일 저장된 시퀀스에 특화된 뉴런을 식별하는 데 어려움을 겪는다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ting-Yun Cha... kl. arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09060.pdfDybere Forespørgsler