Core Concepts
GPT-4는 인간의 답변과 강한 상관관계를 보이며 사회적 상호작용 시나리오에서 사람들의 선호도와 가치를 잘 반영한다.
Abstract
대형 언어 모델(Large Language Models, LLMs)이 로봇의 사회적 행동을 생성할 때 사람들의 선호도와 가치를 얼마나 잘 반영하는지에 대한 연구.
GPT-4는 다른 모델들보다 더 강한 상관관계를 보이며, 특히 의사소통 행동 및 행동 판단에 대해 사람들의 답변과 일치하는 결과를 생성한다.
LLMs는 사람들의 판단에 따라 행동을 평가하는 데 어려움을 겪고, 특히 일부 형태의 의사소통 및 행동 선호도를 과대평가하는 경향이 있다.
GPT-4의 성능은 텍스트 기반 시나리오에서 더 우수하며, 비디오 입력을 처리하는 데 어려움을 겪는다.
체인-오브-쓰트 프롬프팅 기술은 모델의 답변을 개선하는 데 일관된 효과를 보이지 않는다.
Stats
GPT-4는 두 연구에서 강한 상관관계를 보이며, 다른 모델들보다 우수한 성능을 보인다.
LLMs는 사람들이 로봇과 인간이 행동을 평가하는 데 어려움을 겪으며, 특히 일부 형태의 의사소통 및 행동 선호도를 과대평가하는 경향이 있다.
Quotes
"GPT-4는 다른 모델들보다 더 강한 상관관계를 보이며, 특히 의사소통 행동 및 행동 판단에 대해 사람들의 답변과 일치하는 결과를 생성한다."
"LLMs는 사람들의 판단에 따라 행동을 평가하는 데 어려움을 겪고, 특히 일부 형태의 의사소통 및 행동 선호도를 과대평가하는 경향이 있다."