이 논문은 언어 모델의 안전한 출력을 위한 방어 전략을 분석하고 있다. 방어 전략은 크게 두 단계로 구성된다: (1) 위험한 출력에 대한 정의, (2) 정의에 따른 실행.
정의 단계에서는 명시적 규칙이나 데이터 기반 학습을 통해 위험한 출력을 정의한다. 실행 단계에서는 입력 전처리, 모델 fine-tuning, 출력 후처리 등의 방법으로 위험한 출력을 제어한다.
저자들은 실행 전략에 초점을 맞춘 기존 연구들이 한계를 보인다고 지적한다. 그들은 "Purple Problem"이라는 간단한 정의에 대해서도 기존 방어 전략들이 취약하다는 것을 보여준다. 이는 정의 단계의 개선이 핵심임을 시사한다.
저자들은 다음과 같은 제안을 한다:
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Taeyoun Kim,... : arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14725.pdfDaha Derin Sorular