대규모 언어 모델의 안전성 향상을 위해 게임 이론적 접근법을 활용하여 레드 팀 언어 모델과 블루 팀 언어 모델 간의 다단계 공격-방어 게임을 수행하고, 이를 통해 언어 모델의 취약점을 자동으로 발견하고 최적화한다.