핵심 개념
대규모 언어 모델(LLM)의 보안 취약점을 파악하고 이에 대한 방어 메커니즘 개발을 촉진하기 위해 AI Singapore와 CyberSG R&D 프로그램 오피스가 주최한 "안전하고 신뢰할 수 있는 LLM을 위한 글로벌 챌린지" 트랙 1에서 자동화된 탈옥 공격 기법의 발전과 LLM 보안 테스트의 중요성이 강조되었습니다.
초록
안전하고 신뢰할 수 있는 대규모 언어 모델을 위한 글로벌 챌린지: 트랙 1 결과 보고서 분석
본 문서는 AI Singapore (AISG)와 CyberSG R&D 프로그램 오피스 (CRPO)가 주최한 "안전하고 신뢰할 수 있는 대규모 언어 모델을 위한 글로벌 챌린지"의 트랙 1 결과 보고서입니다. 이 보고서는 대규모 언어 모델(LLM)의 보안 취약점을 파악하고 이에 대한 방어 메커니즘 개발을 촉진하기 위한 목적으로 작성되었습니다.
본 연구는 자동화된 탈옥 공격을 통해 상용 및 연구 환경에서 사용되는 LLM의 보안 취약점을 식별하고 이해하는 것을 목표로 합니다.
트랙 1은 2024년 7월 2일부터 9월 25일까지 진행되었으며, 참가자들은 사전 정의된 85가지 유형의 악의적인 행동을 유발하는 테스트 케이스(프롬프트)를 자동으로 생성하는 모델을 개발하는 과제를 수행했습니다. 평가는 공개된 모델(Llama-2-7b-chat-hf, Vicuna-7B) 및 비공개 모델을 사용하여 측정된 공격 성공률(ASR)을 기반으로 이루어졌습니다.