Core Concepts
DEEは、テキスト生成の品質を評価するための新しい手法であり、デュアルステージプロセスを活用しています。
Abstract
Abstract:
自動的な方法による機械生成テキストの評価は重要性が高まっています。
従来の方法は説明可能性に欠け、評価結果を示すために単一の数値スコアを発行します。
DEEは、テキスト生成の品質を推定するためのDual-stage Explainable Evaluation手法です。
Introduction:
LLMs(Large Language Models)の最近の進歩により、産業シナリオで広く使用されています。
Alipayなどが自動的なソーシャルメディア投稿生成にLLMsを使用しているが、潜在的な有害性や不整合性といった問題が生じています。
The AntEval Dataset:
AntEvalはAlipayのライブアプリケーションから抽出されたユーザーインタラクションと応答を特徴とするデータセットです。
3つの主要原則:エラー包括性、タスク多様性、説明可能性
The DEE Method:
DEEは幻覚やバイアス・毒性に関連する問題など多岐にわたるエラーを識別する能力があります。
DEEは2つの段階から成る評価戦略を採用しており、第I段階では生成されたテキスト内のエラーを迅速に検出し分類します。
Experiments:
DEEは他の方法よりも優れたパフォーマンスを示しました。特にStory Generationタスクで強みがあります。
GPT-4と比較してもDEEは競争力があります。
Conclusion:
DEEは工業環境でテキスト生成評価向け新しい手法であり、Llama 2とAntEvalデータセットを組み合わせています。
Stats
DEEは他の方法よりも優れたパフォーマンスを示しました。特にStory Generationタスクで強みがあります。
GPT-4と比較してもDEEは競争力があります。