Centrala begrepp
언어 모델을 활용하여 텍스트 데이터셋을 증류하는 DiLM 방법을 제안하였으며, 이를 통해 기존 방식의 한계를 극복하고 모델 독립적인 증류 데이터셋을 생성할 수 있다.
Sammanfattning
이 논문은 텍스트 데이터셋 증류를 위한 새로운 접근법인 DiLM(Distilling dataset into Language Model)을 제안한다. 기존 텍스트 데이터셋 증류 방식은 단어 임베딩 수준에서 합성 샘플을 최적화하였지만, 이는 증류된 데이터셋을 다른 모델에 적용하기 어려운 문제가 있었다.
DiLM은 이러한 한계를 극복하기 위해 언어 모델을 활용한다. 먼저 언어 모델을 이용해 원본 데이터셋과 유사한 합성 샘플을 생성한다. 이후 gradient matching 손실을 최소화하도록 언어 모델을 fine-tuning하여 더 정보적인 합성 샘플을 생성한다. 이때 비차별적 생성 확률을 통해 gradient 역전파를 가능하게 한다. 또한 대표적인 실제 샘플 선택과 다양한 합성 샘플 생성 기법을 도입하여 DiLM의 성능을 높였다.
실험 결과, DiLM은 기존 코어셋 선택 방식보다 우수한 성능을 보였으며, 증류된 데이터셋을 다양한 모델과 in-context learning에 적용하여 일반화 성능도 검증하였다. 이를 통해 DiLM이 모델 독립적인 텍스트 데이터셋 증류 방법임을 확인하였다.
Statistik
원본 데이터셋의 크기는 SST-2 67.3k, QQP 364k, MNLI-m 393k이다.
증류된 데이터셋의 크기는 데이터/클래스(DPC)가 5, 10, 20개로 실험하였다.
Citat
"Dataset distillation aims to compress a training dataset by creating a small number of informative synthetic samples such that neural networks trained on them perform as well as those trained on the original training dataset."
"To address this issue, we propose a novel text dataset distillation approach, called Distilling dataset into Language Model (DiLM), which trains a language model to generate informative synthetic training samples as text data, instead of directly optimizing synthetic samples."