Keskeiset käsitteet
文脈情報を利用することで、参照なしの機械翻訳評価指標の性能を大幅に向上させることができる。
Tiivistelmä
本研究では、文脈情報を活用した新しい機械翻訳評価指標「SLIDE」を提案している。SLIDEは、文書全体の文脈情報を利用して、文単位の品質推定モデルの性能を大幅に向上させることができる。
具体的には以下の通り:
- 文書内を一定の幅(ウィンドウサイズ)でスライドさせ、各ウィンドウ内の文章をまとめて品質推定モデルに入力する。
- 様々なウィンドウサイズとストライド幅を試した結果、文脈情報を活用することで、参照ベースの評価指標と同等の性能を達成できることが分かった。
- 特に、最新の品質推定モデルであるCOMET-QE-22では、文脈情報の活用により大幅な性能向上が見られた。一方、COMET-QE-20やCOMET-22などの参照ベースの指標では、文脈情報の活用による効果は限定的だった。
- これらの結果は、文脈情報が参照情報と同等の情報を提供できることを示唆している。
Tilastot
文書単位の評価では、参照情報がなくても文脈情報を活用することで、機械翻訳システムの順位付けが大幅に改善できる。
COMET-QE-22モデルでは、文脈情報を活用することで、システム間の正解率が最大で3.3ポイント向上した。
一方、COMET-QE-20やCOMET-22などの参照ベースの指標では、文脈情報の活用による効果は限定的だった。
Lainaukset
"Reference-based metrics that operate at the sentence-level typically outperform quality estimation metrics, which have access only to the source and system output. This is unsurprising, since references resolve ambiguities that may be present in the source."
"We find that SLIDE obtains significantly higher pairwise system accuracy than its sentence-level baseline, in some cases even eliminating the gap with reference-base metrics. This suggests that source context may provide the same information as a human reference in disambiguating source ambiguities."