Core Concepts
本研究では、任意の言語の新約聖書翻訳を使用して、言語モデル評価に適したデータセットを自動的に構築する新しい手法を提案する。
Abstract
本研究では、言語モデルの質を評価するための重要なリソースである評価データセットの不足を解決するために、新しい手法を提案している。具体的には以下の通りである:
- OntoNotesの新約聖書部分の英語アノテーションを、1051の新約聖書翻訳に自動的に投影することで、859言語に渡る評価データセットを構築した。
- アノテーションの投影には、トークンアラインメントを必要としない特徴(例えば名詞句の数)を利用することで、ノイズの影響を最小限に抑えている。
- 構築したデータセットを使って5つのタスク(非代名詞メンション数の予測、主語に固有名詞があるかの予測、文のムードの予測、同じ意味の述語が出現するかの予測、同じ述語の引数数が同じかの予測)を定義し、様々な言語とモデルで評価を行った。
- 評価の結果、提案手法で構築したデータセットが低資源言語の言語モデル評価に有効であることを示した。
Stats
英語のERV翻訳では、ほとんどのタスクでモデルの性能が過半数ベースラインを大きく上回った。
中資源言語(フランス語、日本語、インドネシア語、タミル語)では、モノリンガルモデルが多くの場合マルチリンガルモデルを上回った。
低資源言語(ギリシャ語、コプト語、ウイグル語、ウォロフ語)では、モデルの性能がベースラインを上回るのが難しい場合もあった。