核心概念
ユーザーのプロンプト改善履歴データを活用し、ユーザー能力を考慮したプロンプト改善モデルを開発することで、テキスト-画像生成システムの使いやすさを大幅に向上させる。
要約
本研究は、テキスト-画像生成システムにおけるプロンプト改善の課題に取り組んでいる。分析の結果、ユーザーのプロンプト改善は個人の能力に大きく依存しており、従来のクエリ改善アプローチとは大きく異なることが明らかになった。そこで、ユーザー能力を明示的に組み込んだ「Capability-aware Prompt Reformulation (CAPR)」フレームワークを提案した。
CAPR は2つの主要コンポーネントから成る:
Conditional Reformulation Model (CRM): ユーザー能力に応じてプロンプトを改善する
Configurable Capability Features (CCF): ユーザー能力を表す特徴量を設定し、CRMの振る舞いを制御する
CRMは、CCFで指定されたユーザー能力に基づいてプロンプトを改善する。一方、CCFは改善結果の質を最大化するように最適化される。この設計により、CAPR は訓練データ中の平均的なユーザー能力を超えるプロンプト改善を行うことができる。
実験の結果、CAPRは既存手法と比べて大幅な性能向上を示し、未知のテキスト-画像生成システムにも高い汎化性を発揮した。さらに、CCFの各特徴量がCRMの振る舞いをきめ細かく制御できることを確認した。
統計
元のプロンプトの画像生成品質は ImageReward スコアで 0.190 であった。
改善後のプロンプトの画像生成品質は ImageReward スコアで 0.311 に向上した。
引用
"ユーザーのプロンプト改善は個人の能力に大きく依存しており、従来のクエリ改善アプローチとは大きく異なる。"
"CAPRは訓練データ中の平均的なユーザー能力を超えるプロンプト改善を行うことができる。"