核心概念
다국어 온라인 커뮤니티의 증가에도 불구하고, 대부분의 뉴스 추천은 주요 자원이 풍부한 언어, 특히 영어에 초점을 맞추고 있다. 이에 따라 다국어 및 자원이 부족한 언어 사용자의 정보 요구를 충족시키기 위한 다국어 뉴스 추천 시스템 개발이 필요하다.
要約
이 연구에서는 다국어 뉴스 추천을 위한 새로운 공개 데이터셋 xMIND를 소개한다. xMIND는 영어 MIND 데이터셋을 기계 번역하여 언어, 지리, 자원 수준이 다양한 14개 언어로 구성된다. 이를 통해 다국어 및 교차 언어 뉴스 추천 모델의 성능을 체계적으로 평가한다. 실험 결과, 현재의 뉴스 추천 모델은 영어 기반 모델을 다른 언어에 적용할 경우 상당한 성능 저하를 겪으며, 타겟 언어 데이터를 추가로 활용하더라도 이를 효과적으로 극복하기 어려운 것으로 나타났다. 이는 다국어 및 교차 언어 뉴스 추천에 대한 더 광범위한 연구가 필요함을 시사한다.
統計
영어에서 중국어로 번역된 뉴스 기사는 137,737개이며, 총 2.83M 단어로 구성된다.
영어에서 스와힐리어로 번역된 뉴스 기사는 30,338개이며, 총 1.13M 단어로 구성된다.
영어에서 인도네시아어로 번역된 뉴스 기사는 15,266개이며, 총 0.54M 단어로 구성된다.
引用
"다국어 온라인 커뮤니티의 증가에도 불구하고, 대부분의 뉴스 추천은 주요 자원이 풍부한 언어, 특히 영어에 초점을 맞추고 있다."
"현재의 뉴스 추천 모델은 영어 기반 모델을 다른 언어에 적용할 경우 상당한 성능 저하를 겪으며, 타겟 언어 데이터를 추가로 활용하더라도 이를 효과적으로 극복하기 어려운 것으로 나타났다."