핵심 개념
대형 언어 모델(LLM)을 활용한 주제 모델링 기법에서 주제 세분화와 환각 문제를 해결하는 새로운 접근법을 제안한다.
초록
이 논문은 대형 언어 모델(LLM)을 활용한 주제 모델링 기법의 한계를 다룬다. 실험 결과, LLM은 주제 세분화와 일관성 있는 주제 명명에 어려움을 겪는 것으로 나타났다. 또한 복잡한 프롬프트를 사용할 경우 환각 주제가 생성될 위험이 있음을 확인했다.
이를 해결하기 위해 저자들은 다음과 같은 접근법을 제안했다:
- 직접 선호도 최적화(DPO) 기반 fine-tuning 기법을 통해 LLM의 주제 모델링 성능을 향상시켰다. 이 방법은 사용자 피드백을 필요로 하지 않는다.
- 주제 세분화와 일관성 있는 주제 명명을 위한 프롬프트 전략을 개발했다.
- 환각 주제 생성을 줄이기 위한 실험을 수행했다.
실험 결과, 저자들의 fine-tuned 모델인 TopicMistral은 기존 LLM 대비 주제 세분화와 일관성, 환각 주제 감소 측면에서 큰 성능 향상을 보였다. 또한 동적 시드 주제 사용이 주제 다양성 향상에 도움이 되는 것으로 나타났다.
통계
주제 모델링 성능 향상을 위해 Bills 데이터셋의 10%, 20NG 데이터셋의 5%를 사용하여 DPO fine-tuning을 수행했다.
주제 세분화 평가를 위해 20NG, Wiki, Bills 데이터셋에서 각 1,000개의 문서를 사용했다.
환각 주제 평가를 위해 20NG 데이터셋에서 스포츠, 기술, 정치 분야의 각 100개 문서를 사용했다.
인용구
"LLM-based topic modelling approaches often face difficulties in generating topics with adherence to granularity as specified in human instructions, often resulting in many near-duplicate topics."
"Furthermore, methods for addressing hallucinated topics generated by LLMs have not yet been investigated."