Concetti Chiave
大規模言語モデルは特定の状況に対して適切な感情を表現できるが、人間の感情行動とは完全に一致しておらず、類似した状況間の関連性を理解することができない。
Sintesi
本研究は、大規模言語モデル(LLM)の感情表現を評価するための新しいフレームワーク「EmotionBench」を提案している。心理学の感情評価理論に基づき、8つの主要な負の感情(怒り、不安、うつ、フラストレーション、嫉妬、罪悪感、恐怖、恥ずかしさ)を引き起こす400以上の状況を収集し、36の要因に分類した。
1,266人の被験者を対象にした人間評価の結果を基準として、5つのLLMモデル(text-davinci-003、gpt-3.5-turbo、gpt-4、llama-2-7b-chat、llama-2-13b-chat)の感情表現を評価した。
結果として、LLMは特定の状況に対して概ね適切な感情反応を示すことが分かった。しかし、人間の感情行動とは完全に一致しておらず、類似した状況間の関連性を理解することができないことが明らかになった。また、モデルによって感情表現の強さに差異があることも確認された。
本研究は、LLMの感情表現の評価と改善に向けた重要な知見を提供するものである。
Statistiche
LLMは特定の状況に対して概ね適切な感情反応を示すが、人間の感情行動とは完全に一致していない。
LLMの感情表現の強さはモデルによって異なり、gpt-4が最も強い感情表現を示した。
LLMは類似した状況間の関連性を理解することができない。
Citazioni
"LLMsは概して適切な感情反応を示すが、人間の感情行動とは完全に一致していない。"
"LLMの感情表現の強さはモデルによって異なり、gpt-4が最も強い感情表現を示した。"
"LLMは類似した状況間の関連性を理解することができない。"