Core Concepts
GPT-4は、HRIシナリオでのコミュニケーション選択肢や行動判断において、人々の回答と強く相関しています。
Abstract
大規模言語モデル(LLMs)は、高度な行動計画に特に使用される。しかし、HRIシナリオでのコミュニケーションや行動判断を評価するために、GPT-4が他のモデルよりも優れたパフォーマンスを示すことが明らかになった。ただし、ビジョンモデルはビデオ刺激の本質を捉えることに失敗し、LLMsは人々の判断と一致しない傾向がある。さらに、LLMsは特定のコミュニケーション形式や行動の望ましさを過大評価する傾向がある。
Stats
GPT-4は2つの研究で強い相関性を示しました(rs = 0.82, rs = 0.83)。
LLMsはビデオ入力ではテキスト入力よりも性能が低下します。
全てのLLMsは人々よりもポジティブな回答を提供する傾向があります。
Quotes
"最も強力な言語モデルであるGPT-4は2つの実験で強い相関性を示しました"
"GPT-4以外のテストされた他のLLMは明確に劣っています"
"ビジョン入力では、言語モデルが正しく解釈することが難しい"