핵심 개념
언어 모델의 내부 활성화에서 잠재 지식을 발견하는 방법 소개
초록
언어 모델 훈련 기술의 한계와 잠재 지식 발견의 중요성 강조
미지도 방식으로 언어 모델의 내부 활성화에서 잠재 지식을 찾는 방법 소개
Contrast-Consistent Search (CCS) 방법론 소개 및 성능 평가 결과 제시
CCS가 모델 출력에 의존하지 않고 높은 정확도로 지식을 복구하는 능력 강조
CCS의 강건성과 모델 출력을 속이는 실험 결과 설명
CCS가 모델의 중간층에서 작동하며 모델 출력과는 다른 지식을 복구하는 능력 강조
CCS의 성능을 향상시키기 위한 방향성 제시
통계
우리의 방법은 6개 모델과 10개 질문-응답 데이터셋에서 제로샷 정확도를 평균 4% 상회함.
CCS는 제로샷 정확도에 비해 높은 정확도를 유지하며, 모델이 잘못된 답변을 생성하도록 유도해도 높은 정확도를 유지함.
인용구
"우리의 방법은 모델 출력 및 지도 없이도 다양한 지식을 복구할 수 있음."
"CCS는 모델의 내부 활성화에서 지식을 복구하는 데 강력한 성능을 보임."