핵심 개념
체스 게임 언어 모델은 게임 규칙에 대한 사전 지식 없이도 보드 상태와 플레이어 실력을 내부적으로 표현하여 전략적인 체스 수를 생성할 수 있다.
초록
이 연구는 체스 게임 언어 모델의 내부 표현을 분석하였다. 모델은 체스 게임 데이터만으로 학습되었으며, 게임 규칙에 대한 사전 지식이 없었다. 그럼에도 불구하고 모델은 보드 상태와 플레이어 실력을 내부적으로 표현하여 전략적인 체스 수를 생성할 수 있었다.
구체적으로:
- 선형 프로브를 통해 모델이 보드 상태를 정확하게 표현하고 있음을 확인했다.
- 모델은 플레이어 실력을 추정하여 다음 수를 예측하는 데 활용하고 있었다.
- 모델의 내부 표현을 조작하여 보드 상태와 플레이어 실력을 변경할 수 있었고, 이를 통해 모델의 체스 실력을 향상 또는 저하시킬 수 있었다.
이 연구 결과는 언어 모델이 복잡한 세계 모델을 학습할 수 있음을 보여준다. 이는 언어 모델의 내부 작동 원리를 이해하고 활용하는 데 중요한 시사점을 제공한다.
통계
16층 모델의 보드 상태 분류 정확도는 99.6%였다.
16층 모델의 플레이어 실력 분류 정확도는 90.5%였다.
16층 모델의 Stockfish 레벨 0 대비 승률은 69.6%였다.
16층 모델에 플레이어 실력 증가 개입을 적용하면 승률이 72.3%로 향상되었다.
16층 모델에 플레이어 실력 감소 개입을 적용하면 승률이 11.9%로 크게 감소하였다.