이 연구는 아랍어 위키백과 세 개 판(아랍어 위키백과, 이집트 아랍어 위키백과, 모로코 아랍어 위키백과)의 콘텐츠 밀도, 품질, 인적 기여도를 탐색적으로 분석하였다. 특히 이집트 아랍어 위키백과에서 발생한 대규모 자동 템플릿 기반 번역 문제에 초점을 맞추었다.
탐색적 분석 결과, 이집트 아랍어 위키백과는 다음과 같은 특징을 보였다:
이를 바탕으로 메타데이터 기반 다변량 기계학습 분류기를 개발하여 이집트 아랍어 위키백과의 템플릿 번역 기사를 자동으로 탐지하고자 하였다. 실험 결과 XGBoost 분류기가 가장 우수한 성능을 보였으며, 이를 웹 기반 애플리케이션으로 배포하고 데이터셋을 공개하였다.
이러한 템플릿 번역 관행은 사회적, 대표성, 성능 측면에서 부정적 영향을 초래할 수 있다. 즉, 문화적 편향과 오해를 야기하고, 원어민 관점을 반영하지 못하며, 언어 모델 성능을 저하시킬 수 있다. 따라서 이러한 템플릿 번역 기사를 제외하고 원어민 생성 콘텐츠를 활용하는 것이 중요하다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Saied Alshah... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00565.pdfPerguntas Mais Profundas