核心概念
LLM 성능 향상에만 집중하는 기존 프롬프트 최적화 방식의 보안 취약성을 해결하기 위해 성능과 보안을 동시에 개선하는 새로운 다목표 프롬프트 최적화 프레임워크인 SoS(Survival of the Safest)를 소개합니다.
要約
SoS: 안전과 성능, 두 마리 토끼를 잡는 LLM 프롬프트 최적화 프레임워크
본 연구 논문에서는 대규모 언어 모델(LLM)의 성능과 보안을 동시에 향상시키는 새로운 프롬프트 최적화 프레임워크인 SoS(Survival of the Safest)를 제안합니다. 기존의 프롬프트 최적화 연구는 주로 성능 향상에만 초점을 맞추어 실제 애플리케이션 적용 시 심각한 보안 문제를 야기할 수 있다는 한계점을 가지고 있었습니다.
SoS는 인터리브된 다목표 진화 전략을 사용하여 LLM의 성능과 보안을 동시에 향상시킵니다. 이 프레임워크는 의미, 피드백 및 교차 변이를 통합하여 개별 프롬프트 공간을 효율적으로 탐색합니다. SoS는 계산적으로 비용이 많이 드는 파레토 프론트 방법과 달리 복잡하고 고차원적인 이산 검색 공간에서 최적화를 빠르게 수행하면서도 계산 요구 사항을 낮게 유지하는 확장 가능한 솔루션을 제공합니다.
다목표 최적화: SoS는 성능(예: KPI)과 보안/안전 목표를 모두 고려하여 최적화를 수행합니다.
인터리브된 진화 전략: 초기화, 의미 변이, 피드백 변이, 교차 변이 및 최종 선택 단계를 거치면서 프롬프트를 반복적으로 개선합니다.
피드백 기반 연산자: 기존 진화 알고리즘과 달리, SoS는 기존 후보의 평가 데이터를 활용하여 피드백 기반 연산자를 통해 개선을 수행합니다.
가중치 기반 평가 시스템: 사용자는 목표에 따라 가중치를 조정하여 성능과 보안 간의 균형을 제어할 수 있습니다.
다양한 벤치마크 데이터 세트를 사용한 실험을 통해 SoS가 단일 목표 방법에 비해 높은 성능을 제공하고 안전과 보안을 크게 향상시키는 것으로 확인되었습니다.