핵심 개념
이집트 아랍어 위키백과에서 발생한 대규모 자동 템플릿 기반 번역이 해당 위키백과의 콘텐츠 품질과 대표성에 미치는 부정적 영향을 완화하기 위해 이러한 템플릿 번역 기사를 식별하고 특성을 분석하고자 한다.
초록
이 연구는 아랍어 위키백과 세 개 판(아랍어 위키백과, 이집트 아랍어 위키백과, 모로코 아랍어 위키백과)의 콘텐츠 밀도, 품질, 인적 기여도를 탐색적으로 분석하였다. 특히 이집트 아랍어 위키백과에서 발생한 대규모 자동 템플릿 기반 번역 문제에 초점을 맞추었다.
탐색적 분석 결과, 이집트 아랍어 위키백과는 다음과 같은 특징을 보였다:
- 전체 기사 수가 가장 많지만, 50단어 미만의 짧은 기사가 전체의 46%를 차지하는 등 내용이 빈약하고 얕은 수준
- 어휘 다양성과 풍부성이 가장 낮은 수준
- 기사 생성의 대부분(95.56%)이 소수의 등록 사용자에 의한 자동 템플릿 번역으로 이루어짐
이를 바탕으로 메타데이터 기반 다변량 기계학습 분류기를 개발하여 이집트 아랍어 위키백과의 템플릿 번역 기사를 자동으로 탐지하고자 하였다. 실험 결과 XGBoost 분류기가 가장 우수한 성능을 보였으며, 이를 웹 기반 애플리케이션으로 배포하고 데이터셋을 공개하였다.
이러한 템플릿 번역 관행은 사회적, 대표성, 성능 측면에서 부정적 영향을 초래할 수 있다. 즉, 문화적 편향과 오해를 야기하고, 원어민 관점을 반영하지 못하며, 언어 모델 성능을 저하시킬 수 있다. 따라서 이러한 템플릿 번역 기사를 제외하고 원어민 생성 콘텐츠를 활용하는 것이 중요하다.
통계
이집트 아랍어 위키백과의 전체 기사 수는 1,621,745개이지만, 50단어 미만의 기사가 736,158개(46%)를 차지한다.
이집트 아랍어 위키백과의 평균 단어 수는 100단어로, 아랍어 위키백과(300단어)와 모로코 아랍어 위키백과(170단어)에 비해 매우 낮다.
이집트 아랍어 위키백과의 어휘 다양성 지수(MTLD)는 45.69로, 아랍어 위키백과(71.20)와 모로코 아랍어 위키백과(89.77)에 비해 매우 낮다.
이집트 아랍어 위키백과의 기사 생성의 88.57%와 6.99%가 각각 두 명의 등록 사용자('HitomiAkane', 'Al-Dandoon')에 의해 이루어졌다.
인용구
"이집트 아랍어 위키백과는 자동 템플릿 기반 번역으로 인해 내용이 빈약하고 얕은 수준의 기사로 가득 차 있다."
"이집트 아랍어 위키백과의 어휘 다양성과 풍부성이 다른 아랍어 위키백과 판에 비해 매우 낮은 것은 템플릿 번역의 결과이다."
"이집트 아랍어 위키백과의 기사 생성의 대부분이 소수의 등록 사용자에 의한 자동 템플릿 번역으로 이루어져, 원어민의 관점과 문화를 반영하지 못하고 있다."