Core Concepts
대화 생성을 위해 대규모 언어 모델을 활용하여 성격 기반 합성 대화 데이터셋 PSYDIAL을 구축하였다.
Abstract
대화 생성을 위한 파이프라인을 제안하였으며, 이를 통해 한국어 성격 기반 대화 데이터셋 PSYDIAL을 구축하였다.
파이프라인은 5단계로 구성되며, 각 단계에서 특화된 프롬프트를 활용하여 대화를 생성한다.
성격 설정, 프로필 선택, 대화 생성, 대화 필터링, 대화 재생성의 과정을 거친다.
대화 필터링 단계에서는 언어 모델의 자기 평가 능력을 활용하여 인간 개입 없이 데이터 품질을 향상시킨다.
구축된 PSYDIAL 데이터셋을 활용하여 성격 기반 대화 생성 모델을 학습한 결과, 기존 모델 대비 성능이 크게 향상되었다.
제안한 파이프라인은 언어와 과제에 관계없이 범용적으로 적용할 수 있다.
Stats
대화 당 평균 8.16개의 발화로 구성되어 있다.
발화 토큰 길이는 평균 33.25 음절이다.