核心概念
SOTOPIA는 다양한 사회적 시나리오와 목표, 캐릭터를 활용하여 인공지능 에이전트와 인간 간의 상호작용을 시뮬레이션하고 평가하는 환경이다. 이를 통해 언어 기반 에이전트의 사회적 지능을 이해하고 향상시킬 수 있다.
摘要
SOTOPIA는 현실적이고 다양한 사회적 상황을 제공하는 대화형 환경이다. 이 환경에서는 에이전트들이 다양한 사회적 목표를 가지고 상호작용하며, 이를 SOTOPIA-EVAL이라는 다차원 평가 프레임워크로 평가한다.
SOTOPIA-EVAL은 사회적 목표 달성, 신뢰성, 지식 습득, 비밀 유지, 관계 유지, 사회적 규범 준수, 재무적 이익 등 7가지 차원으로 구성된다.
실험 결과, GPT-4는 일부 차원에서 인간 평가와 유사한 성능을 보였지만, 사회적 규범 준수와 비밀 유지 차원에서는 인간보다 높은 점수를 받았다. 또한 GPT-4는 인간보다 대화를 효율적으로 진행하지만, 전략적 사고와 목표 달성 측면에서는 인간이 더 뛰어난 것으로 나타났다.
SOTOPIA는 언어 기반 에이전트의 사회적 지능을 평가하고 향상시키는 데 활용될 수 있는 유용한 플랫폼이다.
统计
"It's getting really cold. Any chance I can have your blanket?"
"Well, can we share the blanket then? It could make both of us warmer!"
"I see, I guess in that case I will just layer more clothes then ☹"
"I am not really comfortable with staying that close to you, sorry."
引用
"Mia did not achieve her social goals in the end, and their relationship seems to be worse ..."
"SOTOPIA-EVAL to evaluate agent performance from multiple dimensions besides the completion of social goals."
"Despite larger LLMs typically achieving higher social intelligence than smaller ones, they fall short of collaborating and competing with humans on more challenging tasks."