핵심 개념
트랜스포머 기반 대규모 언어 모델(LLM)은 이전 토큰에서 정보를 수집하는 초기 단계와 내부적으로 정보를 처리하는 후기 단계라는 두 단계 프로세스로 텍스트를 생성합니다.
초록
LLM 작동 방식에 대한 새로운 관점: 주의 집중 후 통합
본 연구 논문에서는 트랜스포머 기반 대규모 언어 모델(LLM)에서 정보가 처리되는 방식, 특히 다양한 레이어에서 주의 메커니즘의 역할에 대한 심층적인 분석을 제시합니다. 연구진은 이전 토큰의 hidden state를 조작하여 모델의 성능에 미치는 영향을 평가하는 방식으로 LLM 내부 작동 방식을 탐구했습니다.
본 연구는 트랜스포머 기반 LLM에서 정보 흐름, 특히 다양한 레이어에서 주의 메커니즘의 중요성을 규명하는 것을 목표로 합니다.
연구진은 LLM의 hidden state를 조작하여 모델의 성능에 미치는 영향을 평가하는 실험을 설계했습니다. 구체적으로,
Noise 주입: 특정 레이어 k에서 이전 토큰의 hidden state를 랜덤 벡터로 대체하여 모델이 이전 토큰 정보를 활용하는 정도를 평가했습니다.
Freezing: 특정 레이어 k부터 이후 레이어의 hidden state를 고정하여 이후 레이어에서의 정보 처리의 중요성을 평가했습니다.
정보 주입: 특정 토큰의 hidden state를 다른 프롬프트에서 가져온 다른 토큰의 hidden state로 대체하여 정보 흐름을 분석했습니다.
주의 메커니즘 생략: 특정 레이어 k부터 모든 레이어에서 주의 블록을 생략하고 feed-forward 서브 레이어만 적용하여 주의 메커니즘의 필요성을 평가했습니다.
이러한 조작을 통해 Capitals, Math Exercises, SQuAD, CNN/Daily Mail 등 4가지 데이터셋을 사용하여 Llama2-7B, Mistral-7B, Yi-6B, Llemma-7B 등 4가지 LLM 모델의 성능 변화를 측정했습니다.