Core Concepts
혐오 발언에 대한 대응 메시지를 생성할 때 대화의 결과, 즉 낮은 대화 불쾌감과 비혐오적 발화자 재참여와 같은 목표를 고려하는 방법을 제안한다.
Abstract
이 연구는 온라인 혐오 발언에 대한 대응 메시지 생성 시 대화의 결과를 고려하는 방법을 제안한다. 기존 연구는 대응 메시지의 언어적 특성(예: 공손성, 정보성)에 초점을 맞추었지만, 실제 대화 상황에서의 효과는 불분명했다. 이 연구에서는 대화 불쾌감 수준과 발화자의 재참여 행동을 대화 결과 지표로 사용하였다.
구체적으로 다음과 같은 방법을 제안하고 실험하였다:
지시사항을 포함한 프롬프트를 통해 대화 결과를 고려하도록 언어 모델에 요청
다수의 후보 응답을 생성한 뒤 대화 결과 예측 모델을 통해 선택
대화 결과를 고려하여 언어 모델 파인튜닝
대화 결과 예측 모델을 보상 함수로 활용한 강화학습
실험 결과, 이러한 방법들이 효과적으로 대화 결과를 고려한 대응 메시지를 생성할 수 있음을 보여주었다. 또한 생성된 메시지의 관련성, 품질, 다양성 등도 평가하였다. 이를 통해 대화 결과를 고려한 대응 메시지 생성의 가능성과 특징을 확인할 수 있었다.
Stats
대화 불쾌감이 낮은 경우 대응 메시지의 비율이 27%에 불과하다.
비혐오적 발화자 재참여를 유도하는 대응 메시지의 비율은 37%이다.