Core Concepts
大規模言語モデルは、人間が書いた応答よりも共感的に見なされる応答を生成することができる。
Abstract
本研究では、大規模言語モデル(LLM)が生成した応答と人間が書いた応答の共感性を比較しました。
まず、研究参加者に3つの領域(育児、人間関係、職場)の投稿に対する応答を評価してもらいました。その結果、LLMが生成した応答の方が人間が書いた応答よりも共感的だと評価されました。
次に、研究範囲を広げ、怒り、不安、COVID-19支援、育児、人間関係、職場の6つの領域の120の投稿に対するLLMの応答を評価しました。ここでも、LLMの応答は高い共感性を示しました。
さらに言語分析を行ったところ、LLMごとに特徴的な言語スタイルが見られました。例えば、Llama2の応答はより口語的で、感嘆符や疑問符、絵文字の使用が多い一方、Mistralの応答はより謝罪の言葉が多いなどの違いがありました。
これらの結果は、LLMが人間の共感的な応答を生成できる可能性を示唆しています。ただし、LLMが本当の意味で共感を持っているわけではなく、倫理的な懸念もあるため、慎重に扱う必要があります。
Stats
人間の応答は平均して適切性3.99、共感性3.41だったのに対し、LLMの応答は共感性が4.09(GPT4、Llama2)、3.74(Mistral)と高かった。
Llama2の応答は平均219単語と最も長く、GPT4が186単語、Mistralが137単語だった。
Llama2の応答はより口語的な表現("hey"、"totally"など)や感嘆符、疑問符、絵文字の使用が多かった。一方、Mistralの応答はより謝罪の言葉("sorry"など)が多かった。