이 논문은 대규모 언어 모델의 안전성 향상을 위한 게임 이론적 접근법을 제안한다. 기존의 수동적인 레드 팀 설계와 휴리스틱 적대적 프롬프트 기반 접근법의 한계를 극복하기 위해, 이 논문에서는 레드 팀 언어 모델(RLM)과 블루 팀 언어 모델(BLM) 간의 다단계 공격-방어 게임인 레드 팀 게임(RTG)을 수립한다. RTG는 토큰 생성 수준의 마르코프 의사결정 과정(MDPTG)과 문장 생성 수준의 확장형 팀 게임(ETGD)으로 구성된다.
이를 해결하기 위해 게임화된 레드 팀 솔버(GRTS)를 제안한다. GRTS는 의미 공간의 다양성 측정을 도입하여 메타게임 분석을 통해 근사 내쉬 균형을 달성한다. 이를 통해 RLM과 BLM의 최적화 방향을 제시한다.
실험 결과, GRTS는 다단계 공격에서 자율적으로 다양한 공격 전략을 발견하고, 언어 모델의 안전성을 효과적으로 향상시켰다. 또한 다단계 공격-방어 게임을 통해 BLM의 안전성과 유용성 간의 균형을 달성하고, 정렬 비용을 감소시킬 수 있었다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies