核心概念
文法的な類似性に基づいて文脈例を選択することで、機械翻訳の性能を向上させることができる。
要約
本論文では、機械翻訳のための文脈に基づく例の選択手法について提案している。従来の手法は単語レベルの特徴に着目していたが、本研究では構文レベルの類似性に基づいて例を選択する手法を提案している。具体的には、依存構造木の多項式表現を用いて構文的な類似性を計算し、その類似性が高い例を選択する。さらに、単語レベルと構文レベルの両方の特徴を組み合わせた ensemble 手法も提案している。
実験の結果、提案手法は12の翻訳方向のうち11で最高のCOMET得点を達成しており、構文情報が文脈例の選択に有効であることが示された。特に、英語と6つの一般的な言語間の翻訳において、提案手法の有効性が確認された。
統計
文脈例を選択する際、単語レベルの特徴だけでなく構文レベルの特徴も考慮することが重要である。
単語レベルと構文レベルの両方の特徴を組み合わせた ensemble 手法が最も高い翻訳性能を発揮する。
引用
"For the first time, we propose a novel syntax-based in-context example selection strategy for MT."
"We present a simple but effective ensemble strategy to combine in-context examples selected from different criteria, taking advantage of both superficial word overlapping and deep syntactic similarity."
"We prove that syntax is effective in finding informative in-context examples for MT. We call on the NLP community not to ignore the significance of syntax when embracing LLMs."