Core Concepts
多段階タスクにおいて、人間のフィードバックと好みの整合性を統合したプロンプト最適化フレームワークPROMSTを提案し、従来手法を大幅に上回る性能を実現した。
Abstract
本研究は、多段階タスクにおけるプロンプト最適化の新しいアプローチを提案している。従来のプロンプト最適化手法は主に単一ステップのタスクを対象としていたが、現実世界のタスクは多段階で複雑であり、新たな課題が生じる。
具体的には、(1)プロンプトの内容が複雑で長くなるため、言語モデルが誤りを分析するのが困難、(2)個々のステップの影響を評価するのが難しい、(3)人間によって好みが異なるといった問題がある。
そこで本研究では、人間が設計したフィードバックルールを活用し、言語モデルが自動的に改善点を提案できるようにした。また、プロンプトの性能を予測するモデルを学習し、効率的にプロンプト候補を絞り込むことで、探索コストを大幅に削減した。
この手法を11種類の多段階タスクに適用した結果、従来手法と比べて10.6%-29.3%の性能向上を達成した。さらに、人間の好みに合わせてタスクの評価関数を変更することで、好みに合ったプロンプトを発見できることも示した。
本研究は、多段階タスクにおけるプロンプト最適化の新しいベンチマークとなることが期待される。
Stats
多段階タスクでは、プロンプトの長さが300トークン以上と非常に長くなる
人間の好みによってタスクの評価基準が変わり、最適なプロンプトも変わる
提案手法PROMST は、従来手法と比べて10.6%-29.3%の性能向上を達成した
Quotes
"プロンプト最適化は、大規模言語モデル(LLM)の性能を最大限引き出すためのキーとなる"
"多段階タスクでは、プロンプトの内容が複雑で長くなり、LLMが誤りを分析するのが困難"
"人間は誤りの分析と関連知識の組み込みに優れているが、プロンプト最適化は困難"