本研究は、大規模言語モデルを用いた参照なし機械翻訳評価の有効性を検証することを目的としている。
まず、事前学習済みの大規模言語モデルを用いて、ゼロショット学習と文脈学習による参照なし機械翻訳評価を行った。その結果、大規模言語モデルには機械翻訳評価の能力が備わっていないことが明らかになった。
そこで、大規模言語モデルをファインチューニングすることで、参照なし機械翻訳評価の性能向上を図った。具体的には、WMT品質推定タスクのデータセットを用いて、LoRaベースのファインチューニングと完全ファインチューニングを行った。
その結果、ファインチューニングを施した大規模言語モデル(LLaMA-2-7b、LLaMA-2-13b、Mistral-7b)は、既存の参照なし評価手法(COMET、BERTScore、LABSE)と同等以上の人間評価との相関を示した。特に、LLaMA-2-13bモデルが最も高い相関を示した。
一方で、機械翻訳タスクとの多タスク学習を行っても、参照なし機械翻訳評価の性能向上は見られなかった。
以上の結果から、適切にファインチューニングされた大規模言語モデルは、英語とインド言語の参照なし機械翻訳評価に有効活用できることが示された。本研究は、大規模言語モデルを用いた機械翻訳評価の可能性を示す重要な一歩となる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문