핵심 개념
本稿では、機械翻訳と要約評価のためのオープンソース大規模言語モデル(LLM)ベースの評価指標について、720種類以上のプロンプトテンプレートを用いた大規模な分析を行い、その安定性と有効性を検証した。
초록
オープンソース大規模言語モデルのプロンプト探索による機械翻訳と要約評価
本稿では、機械翻訳と要約評価において、ファインチューニングされていないオープンソースLLMを評価指標として使用できるか、また、どのようなプロンプト設計がLLMベースの評価指標の安定性と有効性に影響を与えるかを検証した。
PrExMeと呼ばれる、大規模なプロンプト探索フレームワークを開発。
720種類以上のプロンプトテンプレートと7つのオープンソースLLMを用いて、機械翻訳と要約データセットに対して660万件以上の評価を実施。
プロンプトテンプレートは、思考の連鎖(CoT)、ゼロショット、検索拡張生成(RAG)などのアプローチに基づき、出力形式、タスクの説明、デモンストレーションなどを変化させた階層的な構造を持つ。
評価指標として、Kendallの相関係数、Pearsonの相関係数、Spearmanの相関係数、タイ較正精度などを用いて、LLMの出力と人間の評価との相関を測定。