Core Concepts
저자 언어 모델을 활용하여 소량의 대화 데이터로부터 고품질이면서도 다양한 대화 데이터를 생성할 수 있다.
Abstract
이 논문은 저자 언어 모델을 활용하여 소량의 대화 데이터로부터 고품질이면서도 다양한 대화 데이터를 생성하는 방법을 제안한다.
- 먼저 소량의 대화 데이터를 요약하여 대화 요약 데이터를 생성한다.
- 이 대화 요약 데이터를 활용하여 다양한 주제의 추가적인 대화 요약 데이터를 생성한다.
- 마지막으로 생성된 대화 요약 데이터를 바탕으로 실제 대화 데이터를 생성한다.
- 이를 통해 소량의 대화 데이터로부터 고품질이면서도 다양한 대화 데이터를 생성할 수 있다.
- 또한 기존 방식에 비해 생성된 대화 데이터의 분포가 원본 데이터와 유사하다는 장점이 있다.
Stats
대화 데이터 생성 시 활용되는 주요 통계 수치는 다음과 같다:
생성된 대화 데이터의 평균 perplexity는 3.58로 매우 낮은 수준이다.
생성된 대화 데이터의 Distinct-1과 Distinct-2 점수는 각각 3.01과 16.45로 높은 수준의 다양성을 보인다.
생성된 대화 데이터의 SEMANTICDIVERSITY 점수는 77.52로 매우 높은 수준의 의미적 다양성을 보인다.
Quotes
해당 논문에서 특별히 인용할 만한 문구는 없습니다.