核心概念
本稿では、複雑な指示への追従能力を高めるために、大規模言語モデル向けの新規ベンチマークTRACEと、入出力の選好を最適化するアラインメント手法IOPOを提案する。
要約
IOPO: 入出力選好最適化による複雑な指示追従能力を持つ大規模言語モデルの実現
本稿では、複雑な指示への追従能力を高めるために、大規模言語モデル(LLM)向けの新規ベンチマークTRACEと、入出力の選好を最適化するアラインメント手法IOPOを提案している。これは研究論文形式で記述されている。
複雑な指示への追従能力を向上させ、より正確かつ人間が期待する応答を生成できるLLMの開発を目的とする。
TRACEベンチマークの構築: 5つの制約タイプと26の制約次元を持つ複雑な指示の分類に基づき、12万件の訓練データと1000件の評価データから成るベンチマークTRACEを自動構築した。
IOPOアラインメント手法の提案: 従来の出力選好学習に加えて、入力選好学習を導入することで、LLMが入力内の制約をより深く理解し、複雑な指示に効果的に対応できるようにした。