Core Concepts
システム翻訳の品質を決定するために、高品質な人間の参照が重要であることが示唆されています。複数の参照を平均化することで最大の利益が得られます。
Abstract
この記事は、機械翻訳システムを評価する際に、高品質な人間の参照が重要であることを強調しています。一方で、複数の参照を使用し、それらを平均化することでメトリックパフォーマンスが向上することも示しています。さらに、予算内でどのような参照を収集すべきかを最適化するアルゴリズムも提供されています。これらの結果は、共有タスクや実用的な機械翻訳評価に役立つ可能性があります。
Stats
7つまでのセグメントごとに最大7つの参照を持つことが効果的です。
高品質な参照はメトリックパフォーマンス向上に寄与します。
参考文献:Bojar et al. (2013)
Quotes
"Having up to 7 references per segment and taking their average (or maximum) helps all metrics."
"Higher quality references lead to better metric correlations with humans at the segment-level."