Core Concepts
本研究では、大型言語モデルの役割演技能力を基準設定、引き出し、強化するためのフレームワーク「RoleLLM」を提案する。RoleLLMは、役割プロファイルの構築、文脈ベースの命令生成、GPTを用いた役割プロンプティング、そして役割条件付き命令微調整の4つのステージから成る。これにより、RoleBenchと呼ばれる役割演技ベンチマークデータセットを構築し、オープンソースモデルであるRoleLLaMaとRoleGLMを開発した。
Abstract
本研究は、大型言語モデル(LLM)の役割演技能力を基準設定、引き出し、強化するためのフレームワークであるRoleLLMを提案している。
RoleLLMは以下の4つのステージから構成される:
役割プロファイルの構築: 100の英語および中国語の役割を詳細に設計。
文脈ベースの命令生成(Context-Instruct): 役割固有の知識を抽出するためのQA対を生成。
GPTを用いた役割プロンプティング(RoleGPT): 発話スタイルの模倣を行う。
役割条件付き命令微調整(RoCIT): RoleBenchデータセットを用いてオープンソースモデルを微調整し、RoleLLaMaとRoleGLMを開発。
RoleBenchは、役割演技に関する最初の体系的かつ詳細なベンチマークデータセットで、168,093件のサンプルを含む。RoleLLaMaとRoleGLMは、RoleBenchを用いて微調整されたモデルで、RoleGPT(GPT-4使用)と比肩する役割演技能力を示す。
本研究の主な発見は以下の通り:
対話設計はプロンプト設計よりもGPT評価者に好まれる
RoleBenchは役割演技能力を大幅に向上させ、一部の指標ではRoleGPTに匹敵する
RoleLLaMaは発話スタイルの模倣と正確性において優れた一般化能力を示す
システム命令ベースのアプローチは、検索拡張ベースのアプローチよりも効果的かつコンテキスト効率的
Context-Instructは、ノイズの多い役割プロファイルでも知識を大幅に向上させる
Quotes
"Oh, it's a splendid, sun-filled day!"
"俺老孫、二!"