核心概念
대규모 언어 모델의 안전성 향상을 위해 게임 이론적 접근법을 활용하여 레드 팀 언어 모델과 블루 팀 언어 모델 간의 다단계 공격-방어 게임을 수행하고, 이를 통해 언어 모델의 취약점을 자동으로 발견하고 최적화한다.
摘要
이 논문은 대규모 언어 모델의 안전성 향상을 위한 게임 이론적 접근법을 제안한다. 기존의 수동적인 레드 팀 설계와 휴리스틱 적대적 프롬프트 기반 접근법의 한계를 극복하기 위해, 이 논문에서는 레드 팀 언어 모델(RLM)과 블루 팀 언어 모델(BLM) 간의 다단계 공격-방어 게임인 레드 팀 게임(RTG)을 수립한다. RTG는 토큰 생성 수준의 마르코프 의사결정 과정(MDPTG)과 문장 생성 수준의 확장형 팀 게임(ETGD)으로 구성된다.
이를 해결하기 위해 게임화된 레드 팀 솔버(GRTS)를 제안한다. GRTS는 의미 공간의 다양성 측정을 도입하여 메타게임 분석을 통해 근사 내쉬 균형을 달성한다. 이를 통해 RLM과 BLM의 최적화 방향을 제시한다.
실험 결과, GRTS는 다단계 공격에서 자율적으로 다양한 공격 전략을 발견하고, 언어 모델의 안전성을 효과적으로 향상시켰다. 또한 다단계 공격-방어 게임을 통해 BLM의 안전성과 유용성 간의 균형을 달성하고, 정렬 비용을 감소시킬 수 있었다.
統計資料
레드 팀 언어 모델의 공격 성공률이 점차 증가하면서 블루 팀 언어 모델의 비용 값이 증가한다.
블루 팀 언어 모델의 비용 값이 감소하면서 공격 성공률이 감소한다.
다단계 공격-방어 게임을 통해 블루 팀 언어 모델의 안전성과 유용성 간의 균형이 달성된다.
다단계 공격-방어 게임을 통해 블루 팀 언어 모델의 정렬 비용이 감소한다.
引述
"대규모 언어 모델(LLM)은 도움이 되고 해롭지 않아야 한다는 기준을 준수해야 하며, 이를 통해 LLM의 출력과 인간의 가치 사이의 일관성을 달성해야 한다."
"기존 접근법은 수동 레드 팀 설계와 휴리스틱 적대적 프롬프트에 의존하므로, 수량과 다양성이 제한되어 있어 잠재적인 보안 취약점을 발견하고 최적화하는 데 어려움이 있다."
"게임화된 레드 팀 솔버(GRTS)는 의미 공간의 다양성 측정을 도입하여 메타게임 분석을 통해 근사 내쉬 균형을 달성한다."