Core Concepts
대규모 언어 모델을 활용하여 대항 내러티브의 질을 다양한 측면에서 평가할 수 있는 새로운 프레임워크를 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)을 활용하여 대항 내러티브의 질을 다각도로 평가하는 새로운 프레임워크를 제안한다. 기존의 자동 평가 지표들은 인간의 판단과 잘 부합하지 않았는데, 이는 단순한 참조 비교에 의존하여 대항 내러티브의 핵심 측면들을 반영하지 못했기 때문이다.
이 연구에서는 NGO 가이드라인에서 도출한 5가지 핵심 평가 측면(특정성, 반대, 관련성, 유해성, 유창성)을 LLM에 적용하여 대항 내러티브 후보에 대한 점수와 피드백을 생성한다. 실험 결과, LLM 평가자들은 인간 평가 점수와 강한 상관관계를 보였고, 기존 지표들보다 우수한 성능을 보였다. 이는 LLM이 사회적 이해력을 바탕으로 대항 내러티브의 질을 다각도로 평가할 수 있음을 시사한다.
Stats
온라인 플랫폼을 통해 혐오 발언이 빠르고 광범위하게 퍼지면서 자동 개입 전략이 필요해졌다.
대항 내러티브는 혐오 발언에 대한 정보에 기반한 대응으로, 혐오 주장을 반박하고 상황을 진정시키는 데 효과적이다.
기존 자동 평가 지표들은 인간의 판단과 잘 부합하지 않았는데, 이는 단순한 참조 비교에 의존하여 대항 내러티브의 핵심 측면들을 반영하지 못했기 때문이다.
Quotes
"Counter narratives — informed responses to hate speech contexts designed to refute hateful claims and de-escalate encounters — have emerged as an effective hate speech intervention strategy."
"Previous automatic metrics for counter narrative evaluation lack alignment with human judgment as they rely on superficial reference comparisons instead of incorporating key aspects of counter narrative quality as evaluation criteria."