Concepts de base
LLMの一般人のロールプレイ能力を評価するECHOフレームワークを提案し、GPT-4やGPTsなどの手法を比較・分析した。
Résumé
本研究は、LLMの一般人のロールプレイ能力を評価するECHOフレームワークを提案した。
- 10人の参加者の個人情報を収集し、4つのロールプレイ手法(RoleGPT、Juliet、RPP、GPTs)を用いてLLMにロールプレイさせた。
- 参加者の知人に、LLMの応答と参加者の応答を区別してもらう人間評価を行った。
- GPTsが最も高い成功率(48.3%)を示し、LLMの中で最も人間らしい応答ができることが分かった。
- LLMを評価者として使う実験も行い、GPT-4やGPT-4-Turboは人間生成と機械生成の文章を区別できるが、どちらが人間生成かは判断できないことが分かった。
Stats
GPTsは48.3%の成功率で人間の応答を模倣できた
GPT-4は人間生成と機械生成の文章を区別できるが、どちらが人間生成かは判断できなかった