이 논문은 텍스트 데이터셋 증류를 위한 새로운 접근법인 DiLM(Distilling dataset into Language Model)을 제안한다. 기존 텍스트 데이터셋 증류 방식은 단어 임베딩 수준에서 합성 샘플을 최적화하였지만, 이는 증류된 데이터셋을 다른 모델에 적용하기 어려운 문제가 있었다.
DiLM은 이러한 한계를 극복하기 위해 언어 모델을 활용한다. 먼저 언어 모델을 이용해 원본 데이터셋과 유사한 합성 샘플을 생성한다. 이후 gradient matching 손실을 최소화하도록 언어 모델을 fine-tuning하여 더 정보적인 합성 샘플을 생성한다. 이때 비차별적 생성 확률을 통해 gradient 역전파를 가능하게 한다. 또한 대표적인 실제 샘플 선택과 다양한 합성 샘플 생성 기법을 도입하여 DiLM의 성능을 높였다.
실험 결과, DiLM은 기존 코어셋 선택 방식보다 우수한 성능을 보였으며, 증류된 데이터셋을 다양한 모델과 in-context learning에 적용하여 일반화 성능도 검증하였다. 이를 통해 DiLM이 모델 독립적인 텍스트 데이터셋 증류 방법임을 확인하였다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Aru Maekawa,... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00264.pdfГлибші Запити