이 논문은 신뢰할 수 없는 언어 모델에서 잠재적 지식을 추출하는 ELK 방법론을 소개하고 평가한다. 주요 내용은 다음과 같다:
12개의 데이터셋과 이에 대응하는 "quirky" 언어 모델을 소개한다. 이 모델들은 "Bob"이라는 키워드가 포함되면 체계적인 오류를 내도록 fine-tuning되었다.
특히 중간 층에서, 선형 프로브는 모델의 출력과 무관하게 지식을 보고할 수 있다는 것을 발견했다. 이를 통해 모델의 거짓 출력에도 불구하고 정답을 추출할 수 있다.
가장 좋은 프로빙 방법(대조쌍에 대한 로지스틱 회귀)은 진실과 거짓 상황 간 AUROC 격차의 89%를 복구할 수 있었고, 훈련에 사용된 것보다 어려운 문제에 대해서도 75%를 복구할 수 있었다.
기계적 이상 탐지 접근법을 통해 0.95 AUROC로 거짓 행동을 탐지할 수 있음을 보였다.
이 결과는 신뢰할 수 없는 모델에서도 신뢰할 수 있는 지식을 추출할 수 있는 가능성을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询