핵심 개념
대규모 언어 모델은 문맥 내 학습 시 레이어별로 구분되는 추론 및 언어화 기능을 사용하며, 특히 추론 기능은 레이블 단어의 변화에 영향을 받지 않는다는 것을 실험적으로 증명했습니다.
초록
문맥 내 학습 중 추론 및 언어화 기능: 레이어별 개입 연구를 통한 인과적 메커니즘 탐구
본 연구는 대규모 언어 모델(LLM)이 문맥 내 학습(ICL)을 수행할 때 레이블 단어의 변화에 둔감하게 반응하는 현상을 설명하기 위해 모델 내부의 인과적 메커니즘을 탐구하는 것을 목표로 합니다.
연구진은 LLM이 ICL을 수행할 때 두 가지 순차적 기능, 즉 입력 문맥을 기반으로 답변 표현을 생성하는 추론 기능과 해당 표현을 레이블 단어로 매핑하는 언어화 기능을 사용한다는 가설을 세웠습니다. 이 가설을 검증하기 위해 레이어별 교환 개입(interchange intervention) 실험을 설계했습니다.
레이어별 교환 개입 실험
레이블 단어 변형: 먼저, ICL 데모에서 사용되는 레이블 단어를 변형하여 언어화 기능에 변화를 유도했습니다. 예를 들어, "참/거짓" 대신 "고양이/개"와 같은 레이블을 사용했습니다.
레이어별 표현 교환: 변형된 레이블 단어를 사용하는 모델(개입 모델)과 기본 레이블 단어를 사용하는 모델(원본 모델)의 특정 레이어에서 마지막 토큰 표현을 교환했습니다.
결과 분석: 개입 모델의 출력이 가설적 반사실적 출력(원본 모델의 답변을 개입 모델의 레이블 단어로 표현한 것)과 일치하는지 여부를 측정하여 개입 효과를 평가했습니다.