Core Concepts
本研究では、見慣れた評価側面と未知の評価側面の両方を単一のモデルで評価できる汎用的な自動テキスト評価フレームワークX-EVALを提案する。
Abstract
本研究では、自然言語生成(NLG)タスクの出力テキストを多面的に評価するためのX-EVALフレームワークを提案している。X-EVALは2段階の命令チューニングアプローチを採用しており、まず標準的な命令チューニングによってモデルに評価指示に従う能力を持たせ、次に補助的な評価側面の情報を活用することで、見慣れた側面と未知の側面の両方を評価できるようにしている。
具体的には以下の通り:
命令チューニングの第1段階では、スコア付け、比較、ランキング、真偽問題回答といった多様な評価タスクを学習させる
第2段階では、対象の評価側面に加えて他の側面の評価結果も入力に含めることで、側面間の関係性を活用する
推論時には、対象の側面と類似した補助側面を自動的に選択し、それらの評価結果も考慮して最終的な評価を行う
また、本研究では、27種類の評価側面を含む命令チューニングデータセットAspectInstructを新たに構築した。
実験の結果、X-EVALは大規模言語モデルベースの評価手法と比肩する性能を示しつつ、パラメータ数が大幅に少ない点で優位性があることが確認された。
Stats
生成されたテキストは、参照テキストとの類似性だけでなく、流暢性や一貫性といった多様な側面から評価される必要がある。
従来の評価指標は単一の評価スコアしか出力できず、テキストの質を正確に反映できないことが課題だった。
本研究で提案するX-EVALは、見慣れた側面と未知の側面の両方を単一のモデルで評価できる。
Quotes
"NLG typically involves evaluating the generated text in various aspects (e.g., consistency and naturalness) to obtain a comprehensive assessment."
"X-EVAL consists of two learning stages: the vanilla instruction tuning stage that improves the model's ability to follow evaluation instructions, and an enhanced instruction tuning stage that exploits the connections between fine-grained evaluation aspects to better assess text quality."
"Extensive experiments across three essential categories of NLG tasks: dialogue generation, summarization, and data-to-text coupled with 21 aspects in meta-evaluation, demonstrate that X-EVAL enables even a lightweight language model to achieve a comparable if not higher correlation with human judgments compared to the state-of-the-art NLG evaluators like GPT-4."