Core Concepts
사용자의 지시에 따라 LLM을 활용하여 텍스트 분류기를 생성할 수 있다.
Abstract
이 논문은 사용자의 지시에 따라 텍스트 분류기를 생성하는 새로운 프레임워크인 Incubator를 제안한다. Incubator는 Huggingface 데이터셋과 GPT-4를 활용한 ICL 기반 증강을 통해 LLM을 사전 학습한다. 또한 문장 임베딩과 클러스터링을 활용한 자체 다양화 기법을 통해 생성 데이터의 균일성과 다양성을 높인다. 실험 결과, Incubator는 기존 방법들에 비해 우수한 성능을 보이며, 라벨 간 의존성과 사용자 선호도를 고려할 수 있다. 또한 논리적 텍스트 마이닝을 위해 다중 분류기를 생성할 수 있다.
Stats
전통적인 벤치마크 데이터셋에서 Incubator는 기존 방법들에 비해 평균 9.12% 높은 정확도를 달성했다.
"Other" 라벨이 포함된 데이터셋에서 Incubator는 기존 방법들에 비해 평균 11.9% 높은 정확도를 보였다.
복잡한 클래스 정의에 대해 Incubator는 100건 중 평균 92.5%의 정밀도로 텍스트를 마이닝할 수 있었다.
Quotes
"사용자의 지시에 따라 텍스트 분류기를 생성할 수 있는 Incubator는 기존 방법들에 비해 우수한 성능을 보인다."
"Incubator는 라벨 간 의존성과 사용자 선호도를 고려할 수 있으며, 논리적 텍스트 마이닝을 위해 다중 분류기를 생성할 수 있다."