本論文は、自然言語生成(NLG)の評価において、参照の数を増やすことの重要性を示している。従来の評価では、単一または少数の参照しか使用されていないため、生成された仮説の質を正確に反映できていない。
著者らは、大規模言語モデル(LLM)を活用して参照を多様化する手法「Div-Ref」を提案する。この手法では、LLMを使って単一の参照を複数の高品質な参照に変換し、参照の意味的な範囲をできるだけ広く網羅する。
著者らは、機械翻訳、要約、画像キャプション生成の3つのベンチマークで広範な実験を行った。その結果、参照の多様化により、自動評価指標と人間評価の相関が大幅に向上することが示された。特に、従来の指標BLEU、BERTScoreなどでも大きな改善が見られた。さらに、最新のLLM ベースの評価指標もこの手法によって更なる向上が可能であることが分かった。
本研究は、NLGの評価ベンチマークに複数の参照を含めることの重要性を強く主張している。これは一度の取り組みで済むため、今後の研究者がその恩恵を受けられる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Tianyi Tang,... klokken arxiv.org 04-04-2024
https://arxiv.org/pdf/2305.15067.pdfDypere Spørsmål