Core Concepts
GPT-DETOX는 GPT-3.5 Turbo를 활용하여 문맥 학습 기반 프롬프트 방식으로 텍스트의 독성을 제거하는 프레임워크이다.
Abstract
이 논문에서는 GPT-DETOX라는 프롬프트 기반 문맥 학습 프레임워크를 소개한다. GPT-3.5 Turbo를 활용하여 텍스트의 독성을 제거하는 것이 목표이다.
제안된 방법은 다음과 같다:
제로 shot 프롬프팅: 학습 데이터의 예시 없이 프롬프트를 제공하여 출력을 생성한다.
소수 샷 프롬프팅: 학습 데이터의 일부 예시를 포함한 프롬프트를 제공하여 출력을 생성한다. 이때 단어 매칭 예시 선택(WMES)과 문맥 매칭 예시 선택(CMES) 방법을 제안한다.
앙상블 문맥 학습: 제로 샷과 소수 샷 프롬프트들을 조합하여 최적의 프롬프트를 선택한다.
실험 결과, 제안된 방법들이 ParaDetox와 APPDIA 데이터셋에서 기존 모델들을 능가하는 성능을 보였다. 특히 앙상블 문맥 학습이 가장 우수한 성능을 보였다.
Stats
이 문장은 독성이 있습니다.
이 문장은 매우 나쁩니다.
이 문장은 공격적이고 위협적입니다.
Quotes
"이 문장은 매우 불쾌하고 부적절합니다."
"이런 식의 언어는 절대 용납될 수 없습니다."
"이런 말은 절대 해서는 안 됩니다."