Core Concepts
LLM を活用することで、単一の人間作業者が個人化された対話を効率的に生成できる。これにより、大規模で人間が書いた、多セッションにわたる、多分野の会話データを収集できる。また、ユーザの好みを抽出することもできる。
Abstract
本研究では、LAPS (LLM-Augmented Personalized Self-Dialogue) と呼ばれる新しい対話収集手法を提案している。LAPS では、LLM を使ってクラウドワーカーに対話生成のガイダンスを提供することで、大規模で人間が書いた、多セッションにわたる、個人化された会話データを効率的に収集できる。
LAPS の主な特徴は以下の通り:
対話行為分類器を使って、次に取るべき行動を決定する。
LLM を使って、対話履歴とユーザの好みに基づいて、クラウドワーカーに対するガイダンスを生成する。
クラウドワーカーが自身で対話を生成する。
対話終了後に、LLM を使ってユーザの好みを抽出し、好みメモリに保存する。
LAPS を使って、レシピとムービーの2つのドメインで1,406件の多セッション対話と11,215件の好みを収集した。
LAPS で収集した対話は、既存の対話データセットと比較して、語彙の多様性が高く、全体的な質も高いことが示された。また、好みメモリを活用することで、LLMがユーザの好みを効果的に活用して個人化された推薦ができることも示された。
Stats
対話1セッションあたりの平均発話数は13.6
収集した対話の総単語数は7,012
Quotes
"LLM を活用することで、単一の人間作業者が個人化された対話を効率的に生成できる。"
"LAPS を使って、レシピとムービーの2つのドメインで1,406件の多セッション対話と11,215件の好みを収集した。"