이 논문은 대형 언어 모델(LLM) 탈옥 프롬프트에 대한 체계적인 연구를 수행합니다.
첫째, 448개의 실제 탈옥 프롬프트를 수집하고 분석하여 5개의 범주와 10가지 고유한 탈옥 패턴을 도출했습니다. 이를 바탕으로 GPT-3.5, GPT-4, PaLM-2 등 3개의 최신 상용 모델에 대한 탈옥 효과를 평가했습니다. 그 결과 "가상 AI 시뮬레이션"과 "하이브리드 전략" 범주의 프롬프트가 가장 효과적인 것으로 나타났습니다.
둘째, 92명의 참가자를 대상으로 한 사용자 연구를 통해 사람들이 어떻게 의미 있는 탈옥 프롬프트를 생성하는지 살펴보았습니다. 이 과정에서 이전에 알려지지 않은 새로운 탈옥 패턴과 접근법을 발견했습니다.
셋째, 사람과 AI의 협력을 통해 탈옥 프롬프트 생성 과정을 자동화하는 방법을 탐구했습니다. 핵심 전략을 파악하기 위한 실험을 수행했으며, 이를 바탕으로 개발한 프레임워크를 통해 이전에 실패했던 766개의 프롬프트 중 729개를 성공적으로 변환할 수 있었습니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhiyuan Yu,X... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17336.pdfDeeper Inquiries