toplogo
サインイン

온라인 증오 발언에 대한 바스크어와 스페인어 대응 내러티브 생성: 데이터 구축 및 평가


核心概念
본 연구는 바스크어와 스페인어 대응 내러티브 생성을 위한 새로운 병렬 데이터셋 CONAN-EUS를 소개하고, 다국어 및 교차 언어 대응 내러티브 생성 기술을 평가한다.
要約
이 논문은 온라인 증오 발언(Hate Speech, HS)에 대응하는 대응 내러티브(Counter Narrative, CN) 생성을 다룬다. 최근 온라인 상에서 HS 콘텐츠가 증가하고 있지만, CN 생성에 대한 연구는 상대적으로 적었고 주로 영어에 집중되어 왔다. 이에 저자들은 기존 영어 CONAN 데이터셋을 기반으로 기계 번역과 전문가 후편집을 통해 바스크어와 스페인어 CONAN-EUS 데이터셋을 구축했다. CONAN-EUS는 병렬 코퍼스로, 영어 CONAN과 비교하여 다국어 및 교차 언어 CN 자동 생성 연구를 가능하게 한다. 실험 결과, mT5 모델을 기계 번역 데이터가 아닌 전문가 후편집 데이터로 fine-tuning하면 CN 생성 성능이 크게 향상된다. 다국어 데이터 증강은 영어와 스페인어와 같이 구조적으로 유사한 언어에서 성능 향상을 보였지만, 고립어인 바스크어에서는 오히려 성능이 저하되었다. 교차 언어 제로샷 평가에서도 유사한 결과가 관찰되었는데, 스페인어의 경우 모델 전이 방식이 데이터 전이 방식보다 우수했지만, 바스크어는 반대였다. 이는 다국어 생성 모델의 비대칭성과 관련된 것으로 보이며, 이에 대한 추가 연구가 필요하다.
統計
온라인 증오 발언은 "대상 집단에 대한 혐오를 표현하거나 경멸, 모욕하려는 의도로 사용되는 언어"로 정의된다. 기존 CONAN 데이터셋은 6,654개의 영어 HS-CN 쌍을 포함한다. CONAN-EUS는 이를 기계 번역하고 전문가가 후편집한 바스크어와 스페인어 데이터셋으로, 총 26,616개의 HS-CN 쌍을 포함한다.
引用
"온라인 사이트와 소셜미디어 플랫폼은 끊임없이 진화하는 온라인 증오에 맞서 차단 및 삭제 정책을 업데이트하고 있다." "대응 내러티브는 증오 발언을 약화시키고 확산을 완화하는 데 효과적인 접근법으로 제안되고 있다."

抽出されたキーインサイト

by Jaione Bengo... 場所 arxiv.org 03-15-2024

https://arxiv.org/pdf/2403.09159.pdf
Basque and Spanish Counter Narrative Generation

深掘り質問

온라인 증오 발언에 대한 대응 내러티브 생성 기술의 발전을 위해 어떤 추가적인 연구가 필요할까?

대응 내러티브 생성 기술을 발전시키기 위해서는 몇 가지 추가적인 연구가 필요합니다. 첫째, 다양한 언어에 대한 대응 내러티브 생성 모델의 개발이 중요합니다. 현재 대부분의 연구가 영어에 집중되어 있지만, 다양한 언어에 대한 대응 내러티브 생성 모델을 개발하여 다문화적인 환경에서도 효과적으로 대응할 수 있어야 합니다. 둘째, 대량의 수동으로 편집된 데이터 수집이 필요합니다. 수동으로 편집된 데이터는 자동 생성된 데이터보다 품질이 높기 때문에, 이러한 데이터 수집을 통해 모델의 성능을 향상시킬 수 있습니다. 마지막으로, 대응 내러티브 생성 모델의 효과적인 평가 방법에 대한 연구가 필요합니다. 자동 평가 메트릭 외에도 인간 평가를 통해 모델의 성능을 정량화하고 개선할 수 있는 방법을 연구해야 합니다.

기계 번역 데이터와 전문가 후편집 데이터의 성능 차이가 발생하는 이유는 무엇일까

To further advance the technology of counter narrative generation for online hate speech, several additional research areas are needed. Firstly, the development of counter narrative generation models for various languages is crucial. While current research is predominantly focused on English, it is important to develop counter narrative generation models for diverse languages to effectively address multicultural environments. Secondly, there is a need for the collection of large amounts of manually curated data. Manually curated data is of higher quality than automatically generated data, so collecting such data can enhance the performance of the models. Lastly, research on effective evaluation methods for counter narrative generation models is necessary. In addition to automatic evaluation metrics, studying ways to quantify and improve model performance through human evaluation is essential.

기계 번역 데이터와 전문가 후편집 데이터의 성능 차이가 발생하는 이유는 무엇일까?

기계 번역 데이터와 전문가 후편집 데이터의 성능 차이는 주로 데이터의 품질과 다양성에서 기인합니다. 기계 번역 데이터는 자동으로 생성되기 때문에 문맥을 완벽하게 이해하지 못하거나 문법적 오류가 발생할 수 있습니다. 반면 전문가 후편집 데이터는 전문가에 의해 수동으로 수정되었기 때문에 더 높은 품질과 일관성을 갖추고 있습니다. 또한 전문가 후편집 데이터는 보다 특정한 도메인 또는 주제에 맞게 조정되어 있어서 기계 번역 데이터보다 더 관련성이 높을 수 있습니다. 따라서 전문가 후편집 데이터를 사용하면 모델의 성능이 향상되는 것을 관찰할 수 있습니다.

The performance difference between machine translated (MT) data and professionally post-edited data mainly stems from the quality and diversity of the data. Machine translated data is generated automatically, which can lead to a lack of full understanding of context and potential grammatical errors. On the other hand, professionally post-edited data is manually corrected by experts, resulting in higher quality and consistency. Additionally, post-edited data is tailored to specific domains or topics, making it more relevant than machine translated data. Therefore, using post-edited data can enhance the performance of the models.

다국어 생성 모델의 비대칭성 문제를 해결하기 위해서는 어떤 접근법이 필요할까?

다국어 생성 모델의 비대칭성 문제를 해결하기 위해서는 몇 가지 접근법이 필요합니다. 첫째, 다양한 언어 간의 데이터 균형을 맞추는 것이 중요합니다. 각 언어에 대해 충분한 양의 균형 잡힌 데이터를 사용하여 모델을 균형 있게 훈련시키는 것이 필요합니다. 둘째, 다국어 모델의 다양성을 향상시키기 위해 더 많은 다국어 데이터를 활용하는 것이 중요합니다. 다양한 언어 간의 상호작용을 반영하는 데이터를 사용하여 모델의 다국어 능력을 향상시킬 수 있습니다. 마지막으로, 다국어 모델의 특정 언어에 대한 성능을 개선하기 위해 해당 언어에 특화된 데이터나 후편집을 고려하는 것이 중요합니다. 특히 언어 간의 구조적 차이가 큰 경우, 해당 언어에 대한 추가적인 조치가 필요할 수 있습니다.

To address the asymmetry issue in multilingual generation models, several approaches are needed. Firstly, it is important to balance the data across different languages. Training the model with a sufficient amount of balanced data for each language is crucial to ensure a well-rounded model. Secondly, enhancing the diversity of multilingual data is essential to improve the performance of the model. Utilizing data that reflects interactions between various languages can enhance the model's multilingual capabilities. Lastly, considering language-specific data or post-editing for improving the performance on specific languages is important. Especially in cases where there are significant structural differences between languages, additional measures for those languages may be necessary.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star