Główne pojęcia
자연어 처리 시스템이 사용과 언급을 구분하지 못해 반대 발언을 잘못 탐지하고 있으며, 이 구분을 가르치면 이러한 오류를 줄일 수 있다.
Streszczenie
이 논문은 자연어 처리 시스템이 사용과 언급을 구분하는 능력의 중요성을 강조한다. 사용은 문제가 되는 내용을 직접 사용하는 것이고, 언급은 그러한 내용을 인용하거나 언급하는 것이다.
자연어 처리 시스템이 이 두 가지를 구분하지 못하면 반대 발언을 문제가 되는 내용으로 잘못 탐지할 수 있다. 이는 반대 발언을 검열하는 결과를 초래할 수 있다.
논문에서는 이 문제를 확인하기 위해 두 가지 과제를 수행했다. 첫째, 사용과 언급을 구분하는 과제, 둘째, 증오 발언과 허위 정보 탐지와 같은 하위 과제에서 이 구분이 미치는 영향을 확인하는 것이다.
실험 결과, 최신 언어 모델들도 사용과 언급을 구분하는 데 어려움을 겪고 있으며, 이로 인해 반대 발언을 문제가 되는 내용으로 잘못 탐지하는 오류가 발생했다.
이를 해결하기 위해 프롬프트 기반 방법을 제안했는데, 사용과 언급의 구분을 가르치는 프롬프트를 사용하면 이러한 오류를 크게 줄일 수 있다.
이 연구는 자연어 처리 시스템에서 사용과 언급의 구분이 중요하며, 이를 고려하지 않으면 반대 발언을 검열하는 문제가 발생할 수 있음을 보여준다.
Statystyki
자연어 처리 모델이 사용과 언급을 구분하는 데 평균 오류율이 12.22%에서 37.22% 사이로 높게 나타났다.
증오 발언 탐지 과제에서 최신 모델인 GPT-4의 반대 발언에 대한 오류율은 8.89%였다.
허위 정보 탐지 과제에서 GPT-4의 반대 발언에 대한 오류율은 10.21%였다.
Cytaty
"Warning: content in this paper may be upsetting or offensive."
"Counterspeech that refutes problematic content often mentions harmful language but is not harmful itself (e.g., calling a vaccine dangerous is not the same as expressing disapproval of someone for calling vaccines dangerous)."
"We show that even recent language models fail at distinguishing use from mention, and that this failure propagates to two key downstream tasks: misinformation and hate speech detection, resulting in censorship of counterspeech."