本研究では、アラビア語の方言と文化的特徴を評価するための包括的なベンチマーク「AraDiCE」を開発した。主な取り組みは以下の通り:
機械翻訳とヒューマンポストエディットを組み合わせて、アラビア語の方言データを合成的に作成した。これにより、標準アラビア語(MSA)とレバント方言(LEV)、エジプト方言(EGY)の7つのデータセットを作成した。
方言理解、生成、認知能力、文化理解の各タスクでモデルの性能を評価した。アラビア語特化モデルのJaisとAceGPTは方言タスクで優れた成績を収めたが、MSAや英語に比べると依然として課題が残されている。
初めてのアラビア語の地域文化理解ベンチマーク「AraDiCE-Culture」を開発した。この結果、アラビア語特化モデルがアラビア文化の理解でも優れていることが示された。
全体として、本研究は多様なアラビア語方言とその文化的特徴を捉えるためのベンチマークを提供し、大規模言語モデルの性能評価に貢献した。今後は、さらに広範なアラビア語方言への対応や、より大規模なモデルの評価が課題として残されている。
翻譯成其他語言
從原文內容
arxiv.org
深入探究