toplogo
リソース
サインイン

大規模言語モデルを活用した参照なし機械翻訳評価: 英語とインド言語への適用


コアコンセプト
大規模言語モデルを活用して、英語とインド言語の機械翻訳の品質を参照なしで評価する手法を提案する。
抽象
本研究は、大規模言語モデルを用いた参照なし機械翻訳評価の有効性を検証することを目的としている。 まず、事前学習済みの大規模言語モデルを用いて、ゼロショット学習と文脈学習による参照なし機械翻訳評価を行った。その結果、大規模言語モデルには機械翻訳評価の能力が備わっていないことが明らかになった。 そこで、大規模言語モデルをファインチューニングすることで、参照なし機械翻訳評価の性能向上を図った。具体的には、WMT品質推定タスクのデータセットを用いて、LoRaベースのファインチューニングと完全ファインチューニングを行った。 その結果、ファインチューニングを施した大規模言語モデル(LLaMA-2-7b、LLaMA-2-13b、Mistral-7b)は、既存の参照なし評価手法(COMET、BERTScore、LABSE)と同等以上の人間評価との相関を示した。特に、LLaMA-2-13bモデルが最も高い相関を示した。 一方で、機械翻訳タスクとの多タスク学習を行っても、参照なし機械翻訳評価の性能向上は見られなかった。 以上の結果から、適切にファインチューニングされた大規模言語モデルは、英語とインド言語の参照なし機械翻訳評価に有効活用できることが示された。本研究は、大規模言語モデルを用いた機械翻訳評価の可能性を示す重要な一歩となる。
統計
英語からヒンディー語への機械翻訳の評価スコアが99点の文が2件ある。 英語からグジャラート語への機械翻訳の評価スコアが95点の文が43件ある。 英語からマラーティー語への機械翻訳の評価スコアが90点の文が940件ある。 英語からタミル語への機械翻訳の評価スコアが90点の文が941件ある。 英語からテルグ語への機械翻訳の評価スコアが90点の文が930件ある。
引用
なし

より深い問い合わせ

大規模言語モデルを用いた参照なし機械翻訳評価手法をさらに発展させるためには、どのような課題に取り組む必要があるだろうか。

この研究では、大規模言語モデルを使用した参照なし機械翻訳評価手法の有効性を評価しましたが、さらなる発展に向けて取り組むべき課題がいくつかあります。まず、他の言語に対してもこの手法を拡張し適用可能にするために、異なる言語ペアにおける性能や適合性を検証する必要があります。さらに、大規模言語モデルの特性や言語間の違いによる影響を考慮しながら、モデルの汎用性や信頼性を向上させるための研究が必要です。また、人間の評価との相関性や翻訳品質の客観的評価方法の確立など、評価手法の精度や信頼性を向上させるための取り組みも重要です。
0