이 논문은 대규모 언어 모델(LLM)의 성격 특성을 편집하는 혁신적인 과제를 소개한다. 이 과제는 개인의 성격이 종종 표현된 의견의 형태로 나타나므로, 모델의 응답에서 다양한 성격 특성을 보여줄 수 있도록 조정하는 것을 목표로 한다.
구체적으로 이 논문은 PersonalityEdit이라는 새로운 벤치마크 데이터셋을 구축했다. 사회심리학 이론을 기반으로 신경증, 외향성, 친화성의 3가지 대표적인 성격 특성을 선정했다. 이후 GPT-4를 활용하여 특정 주제에 대한 의견을 생성하되, 목표 성격 특성을 반영하도록 했다.
다양한 기준선 모델을 활용한 실험을 통해 성격 편집의 잠재적 어려움을 확인했다. 이를 통해 향후 모델 편집 및 성격 관련 연구에 대한 시사점을 제공한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询