核心概念
본 연구는 바스크어와 스페인어 대응 내러티브 생성을 위한 새로운 병렬 데이터셋 CONAN-EUS를 소개하고, 다국어 및 교차 언어 대응 내러티브 생성 기술을 평가한다.
要約
이 논문은 온라인 증오 발언(Hate Speech, HS)에 대응하는 대응 내러티브(Counter Narrative, CN) 생성을 다룬다.
최근 온라인 상에서 HS 콘텐츠가 증가하고 있지만, CN 생성에 대한 연구는 상대적으로 적었고 주로 영어에 집중되어 왔다.
이에 저자들은 기존 영어 CONAN 데이터셋을 기반으로 기계 번역과 전문가 후편집을 통해 바스크어와 스페인어 CONAN-EUS 데이터셋을 구축했다.
CONAN-EUS는 병렬 코퍼스로, 영어 CONAN과 비교하여 다국어 및 교차 언어 CN 자동 생성 연구를 가능하게 한다.
실험 결과, mT5 모델을 기계 번역 데이터가 아닌 전문가 후편집 데이터로 fine-tuning하면 CN 생성 성능이 크게 향상된다.
다국어 데이터 증강은 영어와 스페인어와 같이 구조적으로 유사한 언어에서 성능 향상을 보였지만, 고립어인 바스크어에서는 오히려 성능이 저하되었다.
교차 언어 제로샷 평가에서도 유사한 결과가 관찰되었는데, 스페인어의 경우 모델 전이 방식이 데이터 전이 방식보다 우수했지만, 바스크어는 반대였다.
이는 다국어 생성 모델의 비대칭성과 관련된 것으로 보이며, 이에 대한 추가 연구가 필요하다.
統計
온라인 증오 발언은 "대상 집단에 대한 혐오를 표현하거나 경멸, 모욕하려는 의도로 사용되는 언어"로 정의된다.
기존 CONAN 데이터셋은 6,654개의 영어 HS-CN 쌍을 포함한다.
CONAN-EUS는 이를 기계 번역하고 전문가가 후편집한 바스크어와 스페인어 데이터셋으로, 총 26,616개의 HS-CN 쌍을 포함한다.
引用
"온라인 사이트와 소셜미디어 플랫폼은 끊임없이 진화하는 온라인 증오에 맞서 차단 및 삭제 정책을 업데이트하고 있다."
"대응 내러티브는 증오 발언을 약화시키고 확산을 완화하는 데 효과적인 접근법으로 제안되고 있다."