대규모 언어 모델(LLM)에서 더 작은 모델로 지식을 전이하기 위해 데이터 합성을 활용하는데, 기존의 방법들은 다양성 부족 문제가 있었다. 본 논문에서는 검색 증강을 통해 다양하고 인간이 작성한 텍스트와 유사한 데이터셋을 생성하는 SynthesizRR 방법론을 제안하고, 다양한 분류 작업에서 기존 방법 대비 향상된 성능을 보여준다.