Centrala begrepp
xMINDは、14の言語にわたる大規模で多様な多言語ニュースデータセットであり、言語を超えたニュース推薦システムの開発と評価のための新しいベンチマークを提供する。
Sammanfattning
本論文では、xMINDと呼ばれる新しい公開多言語ニュースデータセットを紹介する。xMINDは、英語のMINDデータセットをNLLBニューラル機械翻訳システムを使って14の言語に翻訳したものである。xMINDは、言語的、地理的、リソース量の面で非常に多様な言語をカバーしており、多言語ニュース推薦システムの開発と評価のための新しい基準を提供する。
論文では、xMINDを使って、ゼロショット(ZS-XLT)およびフューショット(FS-XLT)のクロスリンガル転移シナリオにおいて、最先端のニューラルニュース推薦システムの性能を系統的に評価している。実験の結果、(i)現在のニューラルニュース推薦システムは、多言語言語モデルを使っても、ZS-XLTでは大幅なパフォーマンス低下を示すこと、(ii)ターゲット言語のデータをFS-XLTの学習に含めても、特に二言語ニュース消費と組み合わせた場合、効果が限定的であることが明らかになった。これらの結果は、多言語およびクロスリンガルニュース推薦に関する研究の必要性を示唆している。
Statistik
英語ニュースを14の言語に機械翻訳したデータセットであり、合計130,379件のニュースを含む。
各ニュースには、タイトルと要約が翻訳された形で収録されている。
言語ごとに、訓練/検証/テストデータに分割されている。