Core Concepts
本研究旨在评估大型语言模型在狼人游戏中的意见领导力。意见领导者是能够影响他人信念和行为的个体,这对于多智能体系统和人机交互应用至关重要。本文提出了两个评估指标来衡量意见领导力,并通过大规模模拟和人机实验验证了不同规模语言模型的意见领导能力。结果表明,只有少数大型语言模型展现出一定程度的意见领导力,而且影响人类决策的能力仍然较弱。
Abstract
本文提出了评估大型语言模型意见领导力的框架和指标。
引入狼人游戏中的"警长"角色,作为意见领导者的代理。
提出两个评估指标:
Ratio指标衡量警长的可信度
Decision Change (DC)指标衡量警长对其他玩家决策的影响力
通过大规模模拟实验评估不同规模的语言模型,结果显示:
只有少数大型语言模型(如GLM-4、GPT-4)展现出一定程度的意见领导力
大多数开源语言模型的意见领导力较弱
进一步通过人机实验验证,发现语言模型能够获得人类玩家的信任,但影响人类决策的能力仍然较弱。
作者收集了一个狼人游戏问答数据集(WWQA),用于增强语言模型对游戏规则的理解,但这并未显著提升意见领导力。
总之,本文提出了评估大型语言模型意见领导力的新框架,并通过实验验证了现有语言模型在此方面的局限性,为未来的研究提供了新的思路。
Stats
在狼人游戏中,警长角色被选举产生,可以决定发言顺序、总结讨论并提供投票建议。
评估指标Ratio衡量警长的可信度,DC指标衡量警长对其他玩家决策的影响力。
大型语言模型中,GLM-4和GPT-4的Ratio值分别为1.167和1.093,DC值分别为0.113和0.107,表现较好。
开源语言模型如C3-6B、M-7B、B-13B和In-20B的Ratio值均低于1,DC值也较低,意见领导力较弱。