本研究では、機械翻訳の人間評価における信頼性の向上を目的としている。具体的には以下の点について検討している。
評価対象の割り当て方法: 同一入力文に対する複数システムの出力を同一の評価者が評価する「疑似並列評価」が最も安定性が高い。
評価者の作業割り当て: 可能な限り評価者間の作業量を均等化することが望ましい。ただし、評価者間の評価傾向の差異が大きい場合は、この推奨に従わない方が良い。
評価スコアの正規化: Z-score正規化を適用することで、評価の安定性が向上する。特に、評価者間の作業量に偏りがある場合や、評価者グループ間の差異が大きい場合に効果的。
評価対象数: 予算の範囲内で可能な限り多くの評価対象を設定することが重要。ただし、評価対象数とサンプル数のトレードオフを考慮する必要がある。
評価者数: 1人の評価者による単一評価が、複数評価者による半数の評価対象よりも安定性が高い。
本研究では、上記の知見を得るために、英語-ドイツ語、英語-中国語の2つの言語ペアのデータセットを用いて分析を行っている。合計で約14万件もの細分化された人間評価データを公開しており、今後の研究に活用されることが期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Parker Riley... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01474.pdfDeeper Inquiries